[发明专利]一种融合多元语义的文本摘要自动生成方法及装置在审
申请号: | 202110882867.4 | 申请日: | 2021-08-02 |
公开(公告)号: | CN113609284A | 公开(公告)日: | 2021-11-05 |
发明(设计)人: | 何欣;陈永超;胡霄林;于俊洋;王光辉;翟瑞;宋亚林 | 申请(专利权)人: | 河南大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06N3/04;G06N3/08 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 石丹丹 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 多元 语义 文本 摘要 自动 生成 方法 装置 | ||
本发明属于文本数据处理技术领域,具体涉及一种融合多元语义的文本摘要自动生成方法及装置,该方法包括:首先在源文本输入到编码器之前融合多元语义特征,使源文本包含更多的语义信息;然后将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中,并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态;其次,解码器采用单向长短期记忆网络结合改进的注意力机制、通过上下文向量以及当前时刻的解码器隐藏层状态来预测下一时刻生成的词向量;最后利用损失函数对该模型进行训练,通过训练后的模型将文本自动生成摘要。本发明在源文本输入到编码器之前融入多元语义特征,充分挖掘源文本深层次的隐藏特征,提高生成摘要的质量。
技术领域
本发明属于文本数据处理技术领域,具体涉及一种融合多元语义的文本摘要自动生成方法及装置,是指给定一个较长文本,通过模型最终生成一个较短文本,并且能概括源文本主要内容。
背景技术
文本自动摘要不仅可以有效的降低阅读成本,而且可以缓解当前人们面临的信息过载问题。按照自动摘要的方法进行区分,主要的方法有两种:抽取式摘要和生成式摘要。
抽取式摘要通过判断原文中每个句子的重要性,将其最重要的几个句子抽取出来进行重新组合,组合后的内容作为摘要。早期的抽取式摘要,以统计学知识为基础,将词频,句子的相对长度,以及句子与标题的相似度作为重要性的判断。最初根据高频率词来对句子的重要性进行衡量,高频词越多,则句子越重要,后来提出了词频-逆文档算法改进了传统的词频算法,摘要质量得到了改善。目前在拥有优越的计算能力条件下,可以运用机器学习的方法,通过有监督以及半监督方法对数据集进行标注,在合理建模后,通过训练好的模型对一个未标注的句子进行标注,预测其是否可以作为摘要句。虽然抽取式摘要方法易于实现,但都只是基于文档表层,并没有考虑相邻单词之间的语法以及上下文关系,并不是真正的理解原文,同时生成摘要中的句子间不仅缺乏连贯性,而且存在比较大的局限性。
生成式摘要通过目前更先进更复杂的方法对原文进行语法分析,在理解原文的基础上,将原文的内容用更简洁的句子表达出来。随着近年来硬件性能的不断提升,并伴随着可用于训练的数据量不断增加,深度学习的发展迅猛。序列到序列模型被提出后,开始被应用于自然语言处理的一些领域中,序列到序列模型为文本自动摘要的任务提供了很好的研究思路,并取得了很大进展。序列到序列模型通过编码器将源文本编码成固定大小的上下文向量,再基于上一时刻生成的单词以及该时刻隐藏层状态,通过解码器生成下一个预测单词。后来提出了将注意力机制用于编码器,提高了生成摘要的质量。之后又将循环神将网络替换于解码器,取得了不错的进展。也有在该模型的基础上,引入了强化学习,不仅解决了错误传播问题,而且解决了词句重复问题,增加了生成摘要的可读性。另外,生成式摘要可以结合我们源文本所固有的特征来提高我们模型的效果,可以将词向量融入TF-IDF、POS、NER等统计信息,使生成的摘要更接近于人工总结的摘要。
伴随着深度学习和自然语言处理的发展,基于序列到序列的生成式摘要方法正在不断改进与提升。目前大多数改进都是基于编码器与解码器层面,在融合多元语义还很缺乏。
发明内容
为了在训练模型时从源文本获取更多的有效信息,以便通过训练模型后生成的摘要质量得到进一步提升,本发明提出了一种融合多元语义的文本摘要自动生成方法及装置,在源文本输入到编码器之前融入多元语义特征,充分挖掘源文本深层次的隐藏特征,能够在保留原文重要信息的基础上,提高生成摘要的质量。
为解决上述技术问题,本发明采用以下的技术方案:
本发明提供了一种融合多元语义的文本摘要自动生成方法,包含以下步骤:
步骤1,基于序列到序列模型,结合自然语言处理的多元语义特性,在源文本输入到编码器之前融合多元语义特征,使源文本包含更多的语义信息;
步骤2,将融合多元语义特征后的源文本输入到编码器中的双向长短期记忆网络中,并得到融入多元语义特征的文本中各个词向量对应的隐藏层状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110882867.4/2.html,转载请声明来源钻瓜专利网。