[发明专利]一种基于神经图灵机的自动摘要生成方法在审
申请号: | 201910113193.4 | 申请日: | 2019-02-13 |
公开(公告)号: | CN110032729A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 李建欣;毛乾任;唐彬;李熙;黄洪仁;邰振赢 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F16/34;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京中创阳光知识产权代理有限责任公司 11003 | 代理人: | 尹振启 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要生成 神经 自然语言处理工具 读取 解码器 语料库构建 解码 词性标注 单词序列 模型训练 语义分析 语义特征 摘要内容 编码器 源文本 抽取 文本 中文 | ||
本发明提出一种基于神经图灵机的自动摘要生成方法,包括以下步骤:步骤1,新闻中文语料库构建;步骤2,摘要生成模型训练;步骤3,采用神经图灵机解码,当编码器读取整个源文本之后,解码器部分形成文本摘要的单词序列。本发明使用自动摘要的方式将新闻的主要内容进行抽取,形成简短的容易理解的摘要内容,不需要人工提取语义特征,摆脱了对词性标注和语义分析等自然语言处理工具提取的特征的依赖。
技术领域
本发明涉及一种文本自动摘要生成方法,主要涉及一种基于神经图灵机的自动摘要生成方法。
背景技术
自动文摘技术应用最广的领域在新闻。自动文摘出现的重要原因之一是信息过载问题的困扰,另外一个重要原因是人工文摘的成本较高。新闻信息的过载使得人们迫切地希望能在最短的时间内了解最多且最有用的新闻信息,还有一个问题是很多新闻为了博得眼球,存在标题与正文内容不符的情况。如果有一种工具能先替人们阅读新闻,再提炼出关键内容,那么从时间和对新闻内容阅读的效率的提高上,会对生活无疑会有非常大的便利,这就是文本摘要自动生成技术。
自动文摘要生成即用一段精炼的话来概括整篇文章的大意,用户通过阅读文摘就可以了解到原文要表达的意思。问题包括两种解决思路,一种是抽取式(extractive);另外一种是摘要式(abstractive)。抽取式自动摘要技术就是按照一定的权重,从原文中寻找跟中心思想最接近的一条或几条句子。而生成式则是通过通读原文后,在理解整篇文章意思的基础上,重新生成概要。抽取式的摘要目前已经比较成熟,但抽取式自动摘要由于是自动选择摘要中比较重要的词或句子的组成,在语义语序的重组和生成内容的可读性上不尽人意。随着深度学习的迅速发展,基于深度学习的神经网络的生成式摘要技术在生成的摘要的质量和流畅度都有一定的提升。
研究者们利用一些最新的深度学习神经网络研究成果来实现摘要式的自动摘要生成。主要包括比如经典的循环神经网络Encoder-Decoder框架,Encoder-Decoder框架最早应用于机器翻译领域,输入一个序列,输出另外一个序列。机器翻译问题就是将一种语言序列转换成另外一种语言序列,研究者也将这个思路扩展到的自动摘要领域,把自动摘要问题转换为了sequence-to-sequence(简写为seq2seq)问题,即输入为文本,输出也为文本。这也是现在研究生成式自动摘要的一个主要思路。应用seq2seq在解决标题生成的问题上效果明显,面对传统的单文档的摘要生成的效果并不理想。但总而言之,基于深度学习的神经网络方法在一定程度上优化了自动摘要的可读性问题,目前受到原文本长度过长、抽取内容可读性差强人意等问题,也成为自动文摘最大的难点,现有技术中文本摘要生成面临的三大主要问题:(1)长序列文本的长短依赖问题造成语义消失,(2)不准确地复制事实细节,(3)重复复制摘要出现的内容。
发明内容
针对以上问题,本发明提出一种基于神经图灵机的自动摘要生成方法,如图1所示本发明包括以下步骤:步骤1,新闻文本预处理;步骤2,词向量获取与新闻文本的语义编码;步骤3,神经图灵机进行语义解码;包括外部记忆组件构造,记忆内容存取与记忆内容更新。
文发明的有益效果在于:1、使用自动摘要的方式将新闻的主要内容进行抽取,形成简短的容易理解的摘要内容,不需要人工提取语义特征,摆脱了对词性标注和语义分析等自然语言处理工具提取的特征的依赖。2、在解码阶段采用神经图灵机方法,运用神经图灵机的记忆功能和在长短依赖问题上的优势,改善生成式摘要模型概括长文本的能力3、基于记忆增强的图灵机解码器在每一次解码过程中读取记忆单位对应的上下文编码,增强准确复制原文内容能力。4、对记忆单元内容更新操作,避免模型重复复制摘要出现的内容。
附图说明
图1为本发明的整体流程图;
图2为本发明的自动摘要生成模型图;
图3为摘要自动生成过程图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910113193.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:疾病名称标准化的转换方法和装置
- 下一篇:一种文本数据的处理方法、装置和设备