[发明专利]基于句子关联注意力机制的文本摘要生成方法有效
申请号: | 201910635509.6 | 申请日: | 2019-07-15 |
公开(公告)号: | CN110348016B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 郭军军;赵瑶;余正涛;黄于欣;吴瑾娟;朱恩昌;相艳 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/30;G06N3/04 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 李晓亚 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 句子 关联 注意力 机制 文本 摘要 生成 方法 | ||
本发明涉及基于句子关联注意力机制的文本摘要生成方法,属于自然语言处理技术领域。本发明首先使用分层的双向长短期记忆Bi‑LSTM网络对文档进行编码,获取句子语义向量,然后借助门控网络分析句子间的关联关系,实现句子级别的重要性及冗余性评估,最后提出基于句子关联性注意力机制的解码算法生成摘要;本发明提出在构建神经网络摘要生成框架时,融入句子关联性分析,提升模型对原文中句子重要性及冗余性的评估能力。本发明有效提升了生成式摘要的性能,在当前ROUGH评价指标上取得了较好的效果。
技术领域
本发明涉及基于句子关联注意力机制的文本摘要生成方法,属于自然语言处理技术领域。
背景技术
文本摘要是对文本内容的简要描述,即用一段精炼的文字对文章的内容进行概括,表达原文中最重要的信息。用户通过摘要就可以了解原文主旨,能够解决信息过载、分析困难等问题。目前在文本摘要方面的研究工作可分为两类,分别是抽取式和生成式。抽取式摘要通常依据一定的规则对原文本中句子重要程度进行分值估算,选择得分高且语义上不重复的句子形成摘要,而生成式则是以理解文本语义为前提再行总结,更接近于摘要的本质。但抽取式摘要需要面对更高的信息冗余以及句子间连贯性较差等问题,生成式摘要是一种类似于人工书写的方式对文本信息进行总结,它涉及多个子问题,如全文语义的理解,要点信息识别,同意转述和文本归纳整理等。早期的研究尝试将原文档转化为深层语义图,在图上进行转化分析生成摘要,但语义图的解析本身也是一项亟待解决的难题,在摘要应用中进展较慢。因此,本发明提出了一种新的在一定程度上模拟人工总结文档多项要点信息时需要关注原文不同句子的认知思想,提出基于句子关联性注意力机制的文本摘要生成方法。
发明内容
本发明提供了基于句子关联注意力机制的文本摘要生成方法,以用于解决现有的摘要生成方法需要面对更高的信息冗余以及句子间连贯性较差等问题,以及生成摘要进展慢的问题。
本发明的技术方案是:基于句子关联注意力机制的文本摘要生成方法,首先使用分层的双向长短期记忆(HBi-LSTM)网络对文档进行编码,分别获取词级、句子级向量表示,然后借助门控网络分析句子间的关联关系,对句子的重要性及冗余性等抽象特征进行明确地建模,最后依据句子的重要程度分配注意力权值解码生成摘要。
所述基于句子关联注意力机制的文本摘要生成方法的具体步骤如下:
Step1、借助互联网爬虫自动获取网上的新闻文本信息作为数据来源,关注新华网、国际在线中文版以及新浪微博等国内媒体,获取的数据包含新闻标题、正文详情、发布时间、媒体来源等信息;收集整理了22万余篇新闻文档作为实验数据,该组实验数据并以9:0.5:0.5的比例划分训练集、验证集、测试集。
Step2、对文档进行预处理,包括分词、去停用词、切分句子;具体的使用NLPIR工具对文档进行预处理;
Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码,获取全文语义向量;
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、选用Google提供的开源词向量工具word2vec,训练得到词向量。每个单词由一个字嵌入矩阵E映射得到分布表示,D表示由一系列句子组成的文档,且在每个文档结尾处以“endD”符号进行标记。同理,每个句子由一系列词组成其中Ns表示句子的长度,每个句子以“ends”标记结尾;
Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器;
(1)第一层是词级编码器,将输入的词向量转换成句子序列:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910635509.6/2.html,转载请声明来源钻瓜专利网。