[发明专利]一种增强语义相关性的文本摘要生成方法在审
申请号: | 201910981403.1 | 申请日: | 2019-10-16 |
公开(公告)号: | CN110765264A | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 刘博;申利彬 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/33;G06F16/36;G06F40/30;G06F40/247 |
代理公司: | 11203 北京思海天达知识产权代理有限公司 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 向量 语义 模型生成 词向量 原文 预处理 文本 计算相似度 模型提取 特征表示 梯度计算 文本生成 文本语义 训练网络 摘要生成 去噪 中文 保证 | ||
一种增强语义相关性的文本摘要生成方法属于文本生成领域。首先将海量中文数据进行去噪等预处理,然后将摘要经过预训练网络,获取文本对应的词向量,将需要做摘要的文章转为词向量送模型Encoder端进行特征表示。最后在模型Decoder端,将生成的摘要向量与预训练计算相似度与模型的LOSS值结合,进行模型的梯度计算。预训练向量有很好表达文本语义的能力,本发明将预训练向量与模型生成向量进行结合,不但可以减轻模型提取特征的压力,还可以保证模型生成的摘要语义与原文相同,解决生成摘要与原文不相关的问题。
技术领域:
本发明属于自然语言生成领域,尤其涉及序列到序列文本摘要生成的相关方法。
背景技术:
随着信息技术的快速发展,信息爆炸正在冲击着人们的生活。一方面,现在互联网存在大量网页与文本,但是其中内容相关的文本之间存在大量多余的内容,人们阅读和获取这些重复内容耗费了大量的时间与精力。另一方面,社会发展加快人们的生活节奏,越来越碎片化的时间驱使人们通过互联网获取内容,而不是通过传统的书籍等纸质资料。因此为了解决如何从大量的文本信息中提取其中的主要内容,已经成为当今学术研究的热点。
有关文本摘要的问题,众多国内外学者对这一领域有着很深的见解,提出过很多可用性的文本摘要技术。最早有学者提出抽取式文本摘要(Extractive TextSummarization,ETS)方法,这类方法主要使用传统的统计学方法抽取出能概括内容主旨的片段。虽然这种方法一定程度的可以获取主要内容,但是有一个主要问题是,获取的摘要可能有语义不连贯的问题。随后,有学者提出生成式文本摘要(Abstractive TextSummarization,ATS)方法,这类方法可以有效解决ETS方法生成的文本摘要语义不连贯问题。这类方法使用最新的深度学习技术(Deep Learing,DL)技术,利用神经网络模仿人们的书写习惯,然后训练生成文本摘要。神经网络技术中比较经典的网络架构是Sequence toSequence(Seq2seq),最早由Cho等人提出,这种网络架构是一个Encoder,用来编码源文本输入,一个Decode用来解码,输出目标文本。这种架构是基于循环神经网络(RNN),但是因为循环神经网络是序列输入与输出,所以不能并行化训练,耗时很长。所以,Jonas等人提出了基于卷积神经网络(CNN)的seq2seq,加快训练过程。但是卷积神经网络对语言序列信息的编码能力存在缺陷,在2017年由Ashish等人提出的Transformer模型,既可以处理语言信息,又可以并行化训练。但是正常情况下,我们是无法使用无穷多的语料来训练我们的模型,这样造成Transformer生成的摘要虽然语言通顺,但是得到的语义与目标摘要有一定差距。随着Google的BERT模型在自然语言处理任务上取得的重要进步,自然语言处理技术也迈入了“预训练”的时代。
发明内容
本发明主要解决的技术问题是,利用预训练向量提取丰富特征,并构造一个保证生成摘要语义相关性强的Loss函数。首先利用Jacob等人提出的预训练模型Bert得到预训练向量,并将预训练向量与模型生成的摘要向量做余弦相似度计算,将计算结果与交叉熵损失Loss相加,作为最终的Loss,进行梯度更新。
本发明面向海量文本数据集,提出了一种增强语义相关性的摘要生成方法。对文本数据首先去除空格以及特殊字符,并根据频率去除相关字词,然后加上模型所需要的开始及结束字符<s>、<\s>,padding字符<pad>、与未知字符<unk>。接着构建我们所需要的字典,字典的key为词,value为每个词对用的id。将需要处理的文章根据字典转为相应的id,在模型Embedding层,初始化向量矩阵,然后根据id找到每个词对应的向量。同时,我们将从预训练模型得到的句向量与此处的向量做拼接,将拼接后的向量送入模型的Encoder。Decoder端的解码向量,在做Softmax之前,先与预训练向量做余弦相似度计算,将计算结果与交叉熵结果进行相加,得出需要优化的损失值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910981403.1/2.html,转载请声明来源钻瓜专利网。