[发明专利]一种增强语义相关性的文本摘要生成方法在审

申请号：	201910981403.1	申请日：	2019-10-16
公开（公告）号：	CN110765264A	公开（公告）日：	2020-02-07
发明（设计）人：	刘博;申利彬	申请（专利权）人：	北京工业大学
主分类号：	G06F16/34	分类号：	G06F16/34;G06F16/33;G06F16/36;G06F40/30;G06F40/247
代理公司：	11203 北京思海天达知识产权代理有限公司	代理人：	刘萍
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	向量语义模型生成词向量原文预处理文本计算相似度模型提取特征表示梯度计算文本生成文本语义训练网络摘要生成去噪中文保证
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种增强语义相关性的文本摘要生成方法属于文本生成领域。首先将海量中文数据进行去噪等预处理，然后将摘要经过预训练网络，获取文本对应的词向量，将需要做摘要的文章转为词向量送模型Encoder端进行特征表示。最后在模型Decoder端，将生成的摘要向量与预训练计算相似度与模型的LOSS值结合，进行模型的梯度计算。预训练向量有很好表达文本语义的能力，本发明将预训练向量与模型生成向量进行结合，不但可以减轻模型提取特征的压力，还可以保证模型生成的摘要语义与原文相同，解决生成摘要与原文不相关的问题。

技术领域：

本发明属于自然语言生成领域，尤其涉及序列到序列文本摘要生成的相关方法。

背景技术：

随着信息技术的快速发展，信息爆炸正在冲击着人们的生活。一方面，现在互联网存在大量网页与文本，但是其中内容相关的文本之间存在大量多余的内容，人们阅读和获取这些重复内容耗费了大量的时间与精力。另一方面，社会发展加快人们的生活节奏，越来越碎片化的时间驱使人们通过互联网获取内容，而不是通过传统的书籍等纸质资料。因此为了解决如何从大量的文本信息中提取其中的主要内容，已经成为当今学术研究的热点。

有关文本摘要的问题，众多国内外学者对这一领域有着很深的见解，提出过很多可用性的文本摘要技术。最早有学者提出抽取式文本摘要(Extractive TextSummarization,ETS)方法，这类方法主要使用传统的统计学方法抽取出能概括内容主旨的片段。虽然这种方法一定程度的可以获取主要内容，但是有一个主要问题是，获取的摘要可能有语义不连贯的问题。随后，有学者提出生成式文本摘要(Abstractive TextSummarization,ATS)方法，这类方法可以有效解决ETS方法生成的文本摘要语义不连贯问题。这类方法使用最新的深度学习技术(Deep Learing,DL)技术，利用神经网络模仿人们的书写习惯，然后训练生成文本摘要。神经网络技术中比较经典的网络架构是Sequence toSequence(Seq2seq),最早由Cho等人提出，这种网络架构是一个Encoder，用来编码源文本输入，一个Decode用来解码，输出目标文本。这种架构是基于循环神经网络(RNN)，但是因为循环神经网络是序列输入与输出，所以不能并行化训练，耗时很长。所以，Jonas等人提出了基于卷积神经网络(CNN)的seq2seq，加快训练过程。但是卷积神经网络对语言序列信息的编码能力存在缺陷，在2017年由Ashish等人提出的Transformer模型，既可以处理语言信息，又可以并行化训练。但是正常情况下，我们是无法使用无穷多的语料来训练我们的模型，这样造成Transformer生成的摘要虽然语言通顺，但是得到的语义与目标摘要有一定差距。随着Google的BERT模型在自然语言处理任务上取得的重要进步，自然语言处理技术也迈入了“预训练”的时代。

发明内容

本发明主要解决的技术问题是，利用预训练向量提取丰富特征，并构造一个保证生成摘要语义相关性强的Loss函数。首先利用Jacob等人提出的预训练模型Bert得到预训练向量，并将预训练向量与模型生成的摘要向量做余弦相似度计算，将计算结果与交叉熵损失Loss相加，作为最终的Loss，进行梯度更新。

本发明面向海量文本数据集，提出了一种增强语义相关性的摘要生成方法。对文本数据首先去除空格以及特殊字符，并根据频率去除相关字词，然后加上模型所需要的开始及结束字符<s>、<\s>，padding字符<pad>、与未知字符<unk>。接着构建我们所需要的字典，字典的key为词，value为每个词对用的id。将需要处理的文章根据字典转为相应的id，在模型Embedding层，初始化向量矩阵，然后根据id找到每个词对应的向量。同时，我们将从预训练模型得到的句向量与此处的向量做拼接，将拼接后的向量送入模型的Encoder。Decoder端的解码向量，在做Softmax之前，先与预训练向量做余弦相似度计算，将计算结果与交叉熵结果进行相加，得出需要优化的损失值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学，未经北京工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910981403.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种检索案件的显示方法及装置
下一篇：信息分类抽取方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种增强语义相关性的文本摘要生成方法在审

专利文献下载