[发明专利]一种基于递归神经网络语言模型的文档模板自动生成方法及系统有效
申请号: | 202011488032.2 | 申请日: | 2020-12-16 |
公开(公告)号: | CN112541337B | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 倪时龙 | 申请(专利权)人: | 格美安(北京)信息技术有限公司 |
主分类号: | G06F40/186 | 分类号: | G06F40/186;G06F40/216;G06F40/295;G06F40/211;G06N3/04 |
代理公司: | 福州市景弘专利代理事务所(普通合伙) 35219 | 代理人: | 徐剑兵;林祥翔 |
地址: | 100176 北京市大*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 递归 神经网络 语言 模型 文档 模板 自动 生成 方法 系统 | ||
1.一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于,包括如下步骤:
语料库建立步骤:从预设的语料库文档中抽取语料并建立语料库;根据语料库的语料,对多个相同类型的文档进行信息抽取,抽取出与文档相关的结构化文本信息,结构化文本信息包含有字符串;
文本深层分析步骤:调用深层表示模型单元,对结构化文本信息进行依存句法分析和篇章级别的修辞关系分析,得到结构化文本信息的句法树和篇章关系;
文档模板生成步骤:将结构化文本信息、句法树和篇章关系输入到基于递归神经网络语言模型,生成文档模板;
输入到基于递归神经网络语言模型中执行如下步骤:
串频统计步骤:对文档中的字符串进行串频统计,并对字符串进行过滤;
深度学习步骤:对过滤后的所述字符串输入到段落编码器、双向长短时记忆网络和解码器网络中进行处理,生成字符串的段落向量;
句型模板自动生成步骤:调用已训练好的递归神经网络生成文档字符串的重要性评分;
篇章模板自动生成步骤:根据字符串的段落向量、句法树、篇章关系和重要性评分生成文档模板。
2.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述深层表示模型单元包含有句法分析器,用于对输入的结构化文本信息进行句法分析。
3.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述深层表示模型单元包含有篇章分析模型,用于对输入的结构化文本信息进行篇章分析。
4.根据权利要求3所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述篇章分析为宾州篇章语料库篇章分析或者修辞结构篇章树库篇章分析。
5.根据权利要求1所述的一种基于递归神经网络语言模型的文档模板自动生成方法,其特征在于:所述对字符串进行过滤包括对出现频率低于预设值的字符串进行过滤。
6.一种基于递归神经网络语言模型的文档模板自动生成系统,其特征在于:包括存储器、处理器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1到5任意一项所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于格美安(北京)信息技术有限公司,未经格美安(北京)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011488032.2/1.html,转载请声明来源钻瓜专利网。