[发明专利]一种基于细粒度插入式解码的摘要生成方法有效
申请号: | 201911060930.5 | 申请日: | 2019-11-01 |
公开(公告)号: | CN110795556B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 苏勤亮;李腾龙 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/126;G06F40/151;G06N3/0455;G06N3/08 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 细粒度 插入 解码 摘要 生成 方法 | ||
本发明提供一种基于细粒度插入式解码的摘要生成方法,该方法将训练目标分解成信息提取压缩和自然语言抽象生成两部分,由内容框架提取器负责信息提取压缩部分,使得神经网络语言模型生成器专注于学习摘要文风技巧;预先提取的内容框架构成上下文信息能指导生成过程,相比于从零产生的自左向右解码方式,内容框架能提供给下一个待生成的词丰富的上下文信息;减少了解码步骤,相对加快了自回归解码过程,缓解了基于自注意力网络解码速度比循环神经网络慢的缺陷,同时一定程度缓解了序列到序列模型的暴露偏差(Expose Bias)问题。
技术领域
本发明涉及文本处理方法领域,更具体地,涉及一种基于细粒度插入式解码的摘要生成方法。
背景技术
随着互联网技术的高速发展,每天都会产生海量的新闻、博客、评论等文本信息。自动文本摘要的任务是将长文本输入转化为相对简练的短文本作为输出,与此同时要保证短文本摘要忠于原文的中心思想和囊括原文的核心信息,并具有可读连贯性。通过自动文本摘要可以让人们浏览网页内容时快速了解到各信息的关键内容,有助于筛选信息并节省阅读时间。
自动文本摘要的生成主要有两种方式:抽取式和生成式。抽取式摘要的目标是从原文中抽取最能代表全文中心思想的几个句子或短句作为摘要;生成式的方法则是模拟人类的写作方式,总结文章内容然后逐词逐字生成出一段文本作为摘要。相对而言,抽取式摘要方法比较稳定高效,是在工业界中成熟可用的方法。因其直接从原文中抽取句子作为摘要,能保证最终摘要句子的信息可靠性和忠实度。但该方法同时也会引入冗余信息,难以维持既要还原文章关键信息又要简洁精炼的平衡。除此之外,因抽取出的句子在原文当中大部分并不相邻,因为最终摘要句子之间的连贯性欠佳。近年来随着深度神经网络的兴起,基于长短期记忆网络(LSTM)、基于自注意力网络的转换器(Transformer)等神经网络的生成式摘要方法得到快速发展。其通常使用序列到序列框架实现,其中编码器负责处理源文本输入,理解内在语义信息,最终提取出高层次的特征作为解码器的输入。解码器根据编码器输出的原文语义特征和当前已产生的解码输出,依次生成摘要文字。生成式摘要方法得到的摘要连贯性更强,流畅性更好,相对抽取式方法来说上限更高。
考虑到高质量有效的摘要中会出现大部分内容(实体、事实)直接节选来源于原文段落,结合上抽取式的生成式摘要方法能使效果更稳定可观。当前的一些结合手段包括引入复制机制、抽取重写机制、写作模板机制等等。但这些方法各自存在一些缺陷。复制机制能使摘要生成过程中下一个字词的产生既可以从固定大小的词表中选取也可以从原文中选取,如此做法令训练目标复杂化,实际易表现出滥用复制机制导致模型趋向于退化为纯抽取式方法;抽取重写机制先使用抽取式方法从原文抽选几个句子,然后将这些句子代替原文全文作为生成式方法的输入,虽然该方法能有效压缩原文信息,但摘要生成过程可获取的上下文信息非常局限。写作模板机制从过往预存摘要库里挑选出与当前原文语义最相近一段模板摘要,作为额外信息指导摘要生成过程,但引入的模板摘要属于其他文章的信息压缩总结,与当前文章在内容上同时存在一定的相似性与相斥性。
发明内容
本发明提供一种基于细粒度插入式解码的摘要生成方法,该方法避免了产生如抽取重写机制或写作模板机制的冗余表达。
为了达到上述技术效果,本发明的技术方案如下:
一种基于细粒度插入式解码的摘要生成方法,包括以下步骤:
S1:对输入文件进行预处理;
S2:通过编码器对S1中处理的文本进行编码;
S3:内容框架提取器分析编码后的文本;
S4:解码器对内容框架提取器处理后的文本进行处理得到文本摘要。
进一步地,所述步骤S1的具体过程是:
S11:对原始输入文本分词得到词序列,为避免计算复杂度过高,将文章序列按一定长度截断处理,只保留每篇文章前400个词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911060930.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:知识图谱数据展示方法及相关装置
- 下一篇:一种知识图谱的展示方法及装置