[发明专利]一种结合集束搜索间隔最大化约束的文本摘要生成方法有效
申请号: | 201811321380.3 | 申请日: | 2018-11-07 |
公开(公告)号: | CN109508371B | 公开(公告)日: | 2022-03-15 |
发明(设计)人: | 叶梓;潘嵘 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F40/216;G06F40/289 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 集束 搜索 间隔 最大化 约束 文本 摘要 生成 方法 | ||
本发明创新性地提出了结合集束搜索间隔最大化约束的文本摘要生成方法,缓解了模型在训练和应用中地不一致性,使得模型的训练尽量贴近于实际的应用场景,从而使得模型输出的文本摘要更接近于技术人员想要的摘要。具体是在模型训练过程中,加入了新的约束函数来与基础的交叉熵共同组成新的优化目标,通过这一约束函数来从深层改变模型的优化方向。
技术领域
本发明涉及自然语言处理技术领域,更具体地,涉及一种结合集束搜索间隔最大化约束的文本摘要生成方法。
背景技术
文本摘要技术是自然语言处理领域有长远研究历史和广泛应用的一项热门技术。文本摘要技术指的是让机器模型抽取出文本的主旨以概括其内容,最后输出对应的文本摘要,比如根据新闻内容生成新闻标题等。
传统的文本摘要技术主要分为抽取式的(Extractive)摘要技术和生成式的(Abstractive)摘要技术。抽取式的摘要技术是指模型在原文当中选择性地抽出词汇来拼接作为摘要的技术,因此摘要当中的词汇大多是来自于原文的。抽取式的摘要技术本质上是利用了机器学习当中的分类模型来选择词汇,通过分类模型来判断原文中的某个词是否应该放入摘要当中。生成式的摘要技术则与上述不同,生成式的摘要技术要求模型先理解消化输入的文本,然后根据模型的记忆来输出文本的摘要,输出的摘要与原文可能没有共同的词汇。显然生成式的文本摘要需要模型具有良好的文本概括能力来处理原文,还需要模型在概括文本之后自动地生成合情合理的摘要。
由于抽取式的摘要技术依赖于成熟有效的分类算法,所以是文本摘要技术发展初始的侧重点,相对于生成式的摘要技术也更好解决。但是近年来随着深度学习技术的广泛应用和神经网络模型的进一步发展,研究者通过结合最新的序列生成模型来优化发展了生成式的摘要技术,也使得生成式的摘要技术逐步成为了研究应用的主流。
目前最广泛常见的生成式文本摘要技术主要依赖于基于循环神经网络模型(Recurrent Neural Network)的序列处理和生成模型。文本摘要技术针对的就是文本的处理和生成,而恰恰文本是最典型的序列信息,也是序列生成模型实验中最典型的实验数据,因此将文本摘要技术与序列处理生成模型结合是非常有效合理的解决手段。
目前主流的生成式文本摘要技术所采用的模型大多是基于循环神经网络模型(Recurrent Neural Network)的序列生成模型。文本的处理和生成本质上是对序列数据的处理和生成,所以结合序列处理和生成模型来解决生成式文本摘要是大势所趋。而近年随着机器学习算法和计算机硬件的进一步发展,使得循环神经网络模型大放异彩,成为了最典型的应用最广泛的序列处理和生成模型,也成为在生成式文本摘要技术中最常使用的一类模型。这一类基于循环神经网络模型的模型可以建模序列的内容和顺序,将长度不定的文本压缩为固定长度的特征向量。同时,这一类模型也可以根据固定长度的特征序列,来生成长度不定的文本。因此通过循环神经网络模型,可以完成从文本序列到文本序列的转换,比如从原文到摘要的转换生成。
针对生成式的文本摘要任务,典型的循环神经网络模型模型采用的是编码-解码(Encode-Decode)的基础结构,同时会结合拷贝的技术,比如最常见的指针生成网络(Pointer-Generator Network)。假设输入的文本是x={x0,x1,…,xN-1},其中xi是文本中的第i个词,而模型输出的摘要是y′={y′0,y′1,…,y′M-1},其中y′j是输出的第j个词,则指针生成网络是输入x,输出y′的网络模型。这一类网络的主要部分如下:
1)编码器(Encoder)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811321380.3/2.html,转载请声明来源钻瓜专利网。