[发明专利]一种基于序列到序列模型的中文文本摘要生成方法有效
申请号: | 201911391393.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111078866B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 尹叶龙;邓辉舫 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06N3/0455;G06N3/0442;G06N3/0464;G06N3/047;G06N3/084;G06N3/0985 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 冯炳辉 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 模型 中文 文本 摘要 生成 方法 | ||
本发明公开了一种基于序列到序列模型的中文文本摘要生成方法,首先对文本进行按字切分并填充到固定长度,对字向量进行高斯随机初始化;将文本编码后输入双向长短期记忆网络(LSTM),最后的输出状态作为预编码;对字向量按照不同的窗口大小做卷积神经网络(CNN),输出作为窗口词向量;构建编码器,构造一个双向LSTM,预编码作为其初始化参数,上一步的窗口词向量作为输入;构建解码器,使用单向LSTM并结合注意力机制生成文本。本发明改进了传统的序列到序列模型中的编码器,使模型在编码阶段能够获得更多的原文本的信息,最终解码出更好的文本摘要,并使用了更小细粒度的字向量,更适合中文文本。
技术领域
本发明涉及深度学习、自然语言处理的技术领域,尤其是指一种基于序列到序列模型的中文文本摘要生成方法。
背景技术
文本自动生成摘要技术,其任务的主要内容为:对一个较长文本,通过模型最终生成一个较短文本,并能概括源文本的主要内容。
目前主流的文本摘要方式分为两种,抽取式和生成式。抽取式指利用算法从原文中寻找跟主要思想最接近的一条或几条句子,是一种比较成熟的方案,但由于抽取式摘要的所有内容均由原文本中提取拼凑,生成的摘要可读性和流畅性差强人意,距离实际应用还有不小的距离。
生成式的摘要生成模型利用深度学习,通过大规模文本数据的训练,编码获取文本的主要信息,并能解码生成较为流畅的摘要。但在训练中会出现过拟合的情况,对于一些重要的词汇,会在生成的摘要中重复出现,且词汇表是有限的,对于不在词汇表中生僻词汇,只能用“未知”代替,使得摘要的可读性不高。
传统的抽取式摘要方法大致分为贪心算法,基于图的方法,和基于约束优化方法。其中Text rank排序算法以其简洁、高效的特点被工业界广泛运用。大体思想是先去除文章中的一些停用词,之后对句子的相似度进行度量,计算每一句相对另一句的相似度得分,迭代传播,直到误差小于0.0001。再对上述得到的关键语句进行排序,便能得到想要的摘要。抽取式摘要主要考虑单词词频,并没有过多的语义信息,无法建立文本段落中的完整语义信息。
生成式摘要方法则主要依靠深度神经网络结构实现,2014年由GoogleBrain团队提出的序列到序列模型(Sequence-to-Sequence),开启了NLP中端到端网络的火热研究。序列到序列模型已经成功的应用到各种自然语言处理任务中,其主要结构包括编码器和解码器,经典的序列到序列模型中,编码器和解码都是由循环神经网络(RNN)或长短期记忆网络(LSTM)构成,编码器将原文本编码成一个表示向量,提取原文本中的语义信息,解码器负责解码这个向量,生成文本摘要。
但是由于“长距离依赖”问题的存在,RNN到最后一个时间步输入单词的时候,已经丢失了相当一部分的信息。这时候编码生成的语义向量同样也丢失了大量信息,就导致生成的摘要不够准确。这里就引入了注意力机制,其最初应用于图像识别,模仿人看图像时,目光的焦点在不同的物体上移动。当神经网络对图像进行识别时,每次集中于部分特征上,识别更加准确。利用权重去衡量特征的重要性,因此,注意力模型的结果就是在每次识别时,首先计算每个特征的权值,然后对特征进行加权求和,权值越大,该特征对当前识别的贡献就大。
基于深度学习模型的生成式方法在最终生成的摘要上会有更好的表现,但也会存在丢失一些重要信息,语义不连贯等问题,目前大部分的改进方案是从解码器入手,改进解码方式和调整注意力机制,但是作用仍然十分有限,并且训练时间较长。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提出一种基于序列到序列模型的中文文本摘要生成方法,基于序列到序列模型的生成式算法,避免了抽取式的拼凑复制型的结果,实现端到端的训练方式,简化了特征工程和模型训练的难度,通过预编码和滑动窗口卷积,强化编码器的作用,可以减少预训练词向量的麻烦,增强文本编码的效果,获得更好的摘要效果。
为实现上述目的,本发明所提供的技术方案为:一种基于序列到序列模型的中文文本摘要生成方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911391393.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:粉体高效混合容器及其粉体混合方法
- 下一篇:立卧一体式加工设备及其方法