[发明专利]融合多层次主题特征的文本摘要自动生成方法及装置在审
申请号: | 202111598105.8 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114265929A | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 何欣;陈永超;刘红阳;于俊洋;王光辉 | 申请(专利权)人: | 河南大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06K9/62 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 石丹丹 |
地址: | 475001 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 多层次 主题 特征 文本 摘要 自动 生成 方法 装置 | ||
本发明属于文本数据处理技术领域,特别涉及一种融合多层次主题特征的文本摘要自动生成方法及装置,该方法包括首先基于平均词嵌入方法,将源文本对应的词向量映射成固定长度的句向量;然后将源文本对应的句向量输入到编码器中的双向GRU网络中,并得到每个句向量所对应的隐藏层状态;其次,基于生成的隐藏层状态,对源文本进行局部主题特征和全局信息特征提取;最后将提取到的局部主题特征和全局信息特征融入到源文本中进行解码,依次从源文本中选取句子组成摘要。本发明在解码时融入局部主题特征和全局信息特征,使得生成摘要贴合上下文信息,提高生成摘要的质量。
技术领域
本发明属于文本数据处理技术领域,特别涉及一种融合多层次主题特征的文本摘要自动生成方法及装置,是指给定一个长文本,通过模型从原文中抽取句子组成一个短文本,并且能概括源文本主要内容。
背景技术
文本自动摘要不仅可以有效的降低阅读成本,而且可以缓解当前人们面临的信息过载问题。按照自动摘要的方法进行区分,主要的方法有两种:抽取式摘要和生成式摘要。文本自动摘要最开始以统计理论为基础,基于文本中的词频、句子位置等生成摘要。之后伴随着机器学习和深度学习的发展,主演演化成生成式摘要和抽取式摘要两种主流方法。
生成式摘要主要借助于深度学习,起初序列到序列模型在机器翻译领域取得了明显成效,后被应用于文本摘要,并取得突破性的进展。生成式摘要的编码器最初使用递归神经网络RNN,但由于RNN在处理长期依赖问题方面有欠缺,后期都将RNN变体LSTM、GRU用于编码器中。随后又出现将注意力机制用于序列到序列模型,大幅度提高了生成式摘要的模型效果。之后一段时间主要在注意力机制方面进行不断改进。随后有人将Copy和coverage机制用于序列到序列模型,有效缓解了生成摘要出现OOV词和重复字句的问题。在解决上述问题的基础上,有人用强化学习对模型进行优化,有效缓解了曝光偏差问题。近几年,在transfomer的提出后,有人将其用于生成式摘要,并取得了明显的提升,目前生成式摘要以结合transformer的方法为主。虽然生成式摘要目前已经取得了不错的成就,但仍存在信息编码不充分,生成摘要的过程缺少关键信息的指导等问题,造成生成摘要偏离文本主题的问题。
抽取式摘要源于上个世纪,已经存在了很长时间,技术相对软件资源要求不高,且研究技术已经相对成熟,因此得到了广泛的应用。由于抽取式摘要是从原文抽取词语和句子,因此生成的摘要一般不会偏离主题,摘要的质量也比较高。传统的抽取式摘要基于词频、位置等统计特征的方法进行摘要,之后基于图排序的方法被应用于文本摘要并取得较好的效果。在20世纪90年代,多将机器学习的方法应用于文本摘要中。在神经网络应用于抽取式摘要取得明显效果后,基于神经网络的抽取式摘要已成为主流方法。目前有将分层注意力融入其中,或将文本中的语义信息融入其中,都取得了效果上的提升。也有将transformer应用于抽取式摘要,提升了模型效果,但造成了模型参数增多,训练成本提高。
伴随自然语言处理和深度神经网络的发展,基于神经网络的抽取式摘要正在不断改进和提升,但目前大多数都是增加训练参数或融入全局信息,在融和多层次主题特征方面还很缺乏。
发明内容
针对现有技术中存在的问题,本发明提出一种融合多层次主题特征的文本摘要自动生成方法及装置,在句向量输入到编码器后,基于生成的隐藏层状态提取局部主题特征和全局信息特征,并将其融入源文本,以便在解码时充分参考文本中的上下文主题,能够在生成摘要进一步贴合主题的基础上,提高生成摘要的质量。
为了实现上述目的,本发明采用以下的技术方案:
本发明提供了一种融合多层次主题特征的文本摘要自动生成方法,包含以下步骤:
步骤1,基于平均词嵌入方法,将源文本对应的词向量映射成固定长度的句向量;
步骤2,将源文本对应的句向量输入到编码器中的双向GRU网络中,并得到每个句向量所对应的隐藏层状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南大学,未经河南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111598105.8/2.html,转载请声明来源钻瓜专利网。