[发明专利]一种基于递归神经网络语言模型的文档模板自动生成方法及系统有效
申请号: | 202011488032.2 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112541337B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 倪时龙 | 申请(专利权)人: | 格美安(北京)信息技术有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/216;G06F40/295;G06F40/211;G06N3/04 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 徐剑兵;林祥翔 |
地址: | 100176 北京市大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 递归 神经网络 语言 模型 文档 模板 自动 生成 方法 系统 | ||
本发明公开一种基于递归神经网络语言模型的文档模板自动生成方法及系统。其中方法包括如下步骤:语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板。上述技术方案通过基于深度学习和信息抽取技术实现文档模板的自动生成,提高生成效率。
技术领域
本发明涉及软件技术领域,尤其涉及一种基于递归神经网络语言模型的文档模板自动生成方法及系统。
背景技术
文档模板包含一个标准文档所必须的各个组成部分,如报告文档则包含有标题、报告的章节、报告主要内容、听取报告的对象和时间日期等。通过这样一个模板,可以快速地做出一份符合标准的文档。当前的文档模板主要由人工制作,对于现有很多没有文档模板的文档,需要人工查阅文档,找出文档的组成部分,而后再制作出文档模板,效率低下。
发明内容
为此,需要提供一种基于递归神经网络语言模型的文档模板自动生成方法及系统,解决现有文档模板生成效率低下的问题。
为实现上述目的,本发明提供了一种基于递归神经网络语言模型的文档模板自动生成方法,包括如下步骤:
语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;
文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;
文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板。
进一步地,所述深层表示模型单元包含有句法分析器,用于对输入的结构化文本信息进行句法分析。
进一步地,所述深层表示模型单元包含有篇章分析模型,用于对输入的结构化文本信息进行篇章分析。
进一步地,所述篇章分析为宾州篇章语料库篇章分析或者修辞结构篇章树库篇章分析。
进一步地,输入到基于递归神经网络语言模型中执行如下步骤:
串频统计步骤:对文档中的字符串进行串频统计,并对字符串进行过滤;
深度学习步骤:对过滤后的所述字符串输入到段落编码器、双向长短时记忆网络和解码器网络中进行处理,生成字符串的段落向量;
句型模板自动生成步骤:调用已训练好的递归神经网络生成文档字符串的重要性评分;
篇章模板自动生成步骤:根据字符串的段落向量、句法树、篇章关系和重要性评分生成文档模板。
进一步地,所述对字符串进行过滤包括对出现频率低于预设值的字符串进行过滤。
本发明提供一种基于递归神经网络语言模型的文档模板自动生成系统,包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明实施例任意一项所述方法的步骤。
区别于现有技术,上述技术方案通过基于深度学习和信息抽取技术实现文档模板的自动生成,采用基于递归神经网络的文档语言关联技术,构建电力文档模板的生成算法模型,实现了公文、通知、公告、运检工单等多种类型文档的模板自动生成,提高生成效率。
附图说明
图1为具体实施方式所述的技术路线示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格美安(北京)信息技术有限公司,未经格美安(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488032.2/2.html,转载请声明来源钻瓜专利网。