[发明专利]一种基于主题增强的文本摘要生成方法在审
申请号: | 202010611844.5 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111782810A | 公开(公告)日: | 2020-10-16 |
发明(设计)人: | 赵欢;李婷婷;李祎颖 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/284;G06N3/04 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 邹大坚 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 增强 文本 摘要 生成 方法 | ||
本发明公开了一种基于主题增强的文本摘要生成方法,其步骤包括:步骤S1:对文本进行压缩编码后输入;步骤S2:将主题信息和源文信息结合,通过双注意力机制形成文本信息;所述双注意力机制包括主题注意力模块和文本注意力模块;步骤S3:将步骤S2形成的文本信息解码,生成与源文内容相关且主题信息增强的文本摘要。本发明具有原理简单、操作简便、能够大幅提升文本摘要生成内容的主题相关性和语句质量等优点。
技术领域
本发明主要涉及到文本数据处理技术领域,特指一种基于主题增强的文本摘要生成方法。
背景技术
随着互联网的飞速发展,微博、朋友圈、Facebook等网络社交媒体开始广泛流行,今日头条、公众号等原创内容推送平台强势崛起,人们越来越依赖从网络渠道获取所需的信息。而互联网的高速发展和各种移动终端设备的兴起,使得网络中的文本信息呈爆炸式增长。然而,当今已快节奏的生活方式使得人们只能使用碎片化的时间从海量的资讯中去获取有用的信息。因此,如何使人们在有效的时间内从纷繁复杂的文本信息中快速、准确地获取有价值的信息,是当前自然语言处理任务的研究热点,其中文本摘要自动生成技术正是该领域的核心技术。
文本摘要自动生成技术是对一段文本信息进行简化压缩和内容描述,以便于用户更高效地搜索或提取到有价值的信息。近年来,文本摘要自动生成技术在科技情报领域得到了广泛应用,有效地提高了科技工作者浏览和处理的效率。与此同时,随着人工智能技术的发展,自动文本摘要技术也广泛应用于基于人工智能的APP和网站的智能服务,它为智能问答、舆情分析、热点追踪、行业资讯等等新兴的人工智能市场方向提供强有力的支持,具有较高的商业价值。特别是,对于一些门户类的网站和推送类的媒体,自动文本摘要技术能极大程度上减少文本编辑的人力成本,降低企业运营开销,提升用户体验。但是当前的市场上能提供高精度、高性能自动文摘服务的平台十分稀少。因此,从商业应用角度来看,研究自动文本摘要技术和开放自动文本摘要AP I服务具有重大的意义。
随着近几年神经网络模型的发展,序列到序列(Sequence-to-sequence,Seq2seq)模型被广泛地用于文本摘要自动生成任务中,并取得不错的成果。但是,仅仅使用基础的Seq2seq模型来完成生成式摘要任务,仍然存在着以下技术问题:
(1)、生成语句不通顺、重复词句等问题。生成式文本摘要通过机器学习,训练生成不同于源文的句子,未加入语法信息,导致生成的文本摘要存在不通顺、重复词句等问题。
(2)、生成与源文主题不相关的文本摘要。生成式文本摘要给予全文段进行概括,当文档内容篇幅过长、概念信息较多时,生成的摘要信息容易偏离源文主题。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、操作简便、能够大幅提升文本摘要生成内容的主题相关性和语句质量的基于主题增强的文本摘要生成方法。
为解决上述技术问题,本发明采用以下技术方案:
一种基于主题增强的文本摘要生成方法,其步骤包括:
步骤S1:对文本进行压缩编码后输入;
步骤S2:将主题信息和源文信息结合,通过双注意力机制形成文本信息;所述双注意力机制包括主题注意力模块和文本注意力模块;
步骤S3:将步骤S2形成的文本信息解码,生成与源文内容相关且主题信息增强的文本摘要。
作为本发明方法的进一步改进:所述步骤S2中包括:获取文本的主题词,用来在自动生成摘要的过程中加入主题相关的信息。其中,提取主题信息并作为额外输入,使得生成摘要与源文之间共享相同主题信息。
作为本发明方法的进一步改进:通过Twitter LDA模型的主题提取方法得到源文的主题词作为先验信息,以此确保最终生成的文本摘要与输入的源文在主题信息上保持统一。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010611844.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模块化水冷电阻器
- 下一篇:分布式日志数据处理方法、装置及系统