[发明专利]基于对抗学习和分层神经网络的文本摘要生成系统和方法有效
申请号: | 202011351699.8 | 申请日: | 2020-11-26 |
公开(公告)号: | CN112463956B | 公开(公告)日: | 2022-08-23 |
发明(设计)人: | 黄海辉;查茂鸿;常光辉;胡诗洋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/126;G06F40/211;G06F40/284;G06F40/295;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 重庆市恒信知识产权代理有限公司 50102 | 代理人: | 陈栋梁 |
地址: | 400065 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 对抗 学习 分层 神经网络 文本 摘要 生成 系统 方法 | ||
本发明请求保护一种基于对抗学习和分层神经网络的文本摘要生成系统和方法,属于自然语言处理的文本摘要领域,系统包括:判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块,本发明在编码器‑解码器模型(Seq2Seq)基础上,提出一种层级划分的新模型。将Seq2Seq的编码器部分划分为词嵌入层和句嵌入层,并在每个层级引入增强记忆机制,使模型能够更好的理解文本含义,同时在解码时引入对抗学习,设置一个识别器将标准表示与模糊表示进行识别,缩小两者的距离,同时监督学习阻止他们接近,形成对抗,对抗平衡时,找到最优的生成结果,提高了文本摘要生成的准确率。
技术领域
本发明属于自然语言处理的文本摘要领域,具体涉及一种基于对抗学习和分层神经网络的文本摘要方法和系统。
背景技术
随着近年互联网文本信息爆发式增长,人们每天能接触到海量的文本信息,如新闻、博客、聊天、报告、论文、微博等。从大量文本信息中提取重要的内容,已成为迫切需求,而自动文本摘要则提供了一个高效的解决方案。
传统基于注意力机制的编码器-解码器模型首先对文本的词语做编码,随后加入注意力机制学习文章的关键信息,之后再对词编码进行解码生成文本摘要。此类方法的注意力机制的颗粒度较为粗化,对于长文本的学习不能达到很好的注意效果,很难捕捉到一篇中长文本中的关键语句和关键词语,造成生成的摘要的准确性有较大的偏差。且假设文本序列长度过长,尽管引入了长短记忆型神经网络,但是仍然会发生反向传播过程的梯度弥散现象,从而引发导数计算偏差,在产生偏差的基础上再引入注意力矩阵,则是在产生误差的基础上再次得到更大误差,最终导致摘要生成不准确。
因此,本文提出一种基于对抗学习和分层神经网络的文本摘要方法和系统,将神经网络分层,分为词嵌入层和句嵌入层,并在每个层级引入增强记忆机制,使模型能够更好的理解文本含义,同时在解码时引入对抗学习,设置一个识别器将标准表示与模糊表示进行识别,缩小两者的距离,同时监督学习阻止他们接近,形成对抗,对抗平衡时,找到最优的生成结果,提高文本摘要生成的准确率。
本发明所要解决的技术问题是实现自动文本摘要的生成并提高文摘得准确率。针对传统的基于注意力机制的seq2seq模型由于输入序列过长而不能很好的记忆上下文,造成文本理解缺失以及注意力机制颗粒度较为粗化带来的关键信息捕捉不精确造成的摘要准确性低的问题,提出一种对神经网络分层编码的思想,分为词嵌入级和句嵌入级,在每个层级引入增强记忆机制,效益是减少了反向传播求导中的误差并细化了传统seq2seq模型注意力机制的关注颗粒度,使之能够更为精准的捕获文章中的关键信息,同时在解码时引入对抗学习,设置一个识别器将标准表示与模糊表示进行识别,缩小两者的距离,同时监督学习阻止他们接近,形成对抗,对抗平衡时,找到最优的生成结果,提高文本摘要生成的准确率,从而提高最终生成摘要的精确度。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种基于对抗学习和分层神经网络的文本摘要生成系统及方法。本发明的技术方案如下:
一种基于对抗学习和分层神经网络的文本摘要生成系统,其包括:判别器模块、预处理模块、词嵌入模块、句嵌入模块、生成模块和对抗学习模块,其中判别器模块用于对文本有效性进行判别,预处理模块用于将文本分词化并转化为独热编码one-hot向量,同时做分块处理;词嵌入模块用于利用双向长短记忆型神经网络对one-hot向量进行词编码处理,得到具有高表征的词编码并加入增强记忆矩阵与词编码做点积得到句向量;句嵌入模块利用双向长短记忆型神经网络对所得句向量进行句编码处理,得到具有高表征的句编码并加入增强记忆矩阵与句编码做点积得到文本向量;生成模块对所得文本向量进行解码操作并生成完整的文章摘要记为标准摘要;对抗学习模块对文本重新训练,使用传统的Seq2Seq模型,得到一个模糊表示;接着引入对抗学习,设置一个识别器将标准表示与模糊表示进行识别,调节参数λ缩小两者的距离,同时监督学习阻止他们接近,形成对抗,找到对抗平衡的λ时训练的文本摘要为最优结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011351699.8/2.html,转载请声明来源钻瓜专利网。