[发明专利]一种增强语义相关性的文本摘要生成方法在审

专利信息
申请号: 201910981403.1 申请日: 2019-10-16
公开(公告)号: CN110765264A 公开(公告)日: 2020-02-07
发明(设计)人: 刘博;申利彬 申请(专利权)人: 北京工业大学
主分类号: G06F16/34 分类号: G06F16/34;G06F16/33;G06F16/36;G06F40/30;G06F40/247
代理公司: 11203 北京思海天达知识产权代理有限公司 代理人: 刘萍
地址: 100124 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 向量 语义 模型生成 词向量 原文 预处理 文本 计算相似度 模型提取 特征表示 梯度计算 文本生成 文本语义 训练网络 摘要生成 去噪 中文 保证
【说明书】:

一种增强语义相关性的文本摘要生成方法属于文本生成领域。首先将海量中文数据进行去噪等预处理,然后将摘要经过预训练网络,获取文本对应的词向量,将需要做摘要的文章转为词向量送模型Encoder端进行特征表示。最后在模型Decoder端,将生成的摘要向量与预训练计算相似度与模型的LOSS值结合,进行模型的梯度计算。预训练向量有很好表达文本语义的能力,本发明将预训练向量与模型生成向量进行结合,不但可以减轻模型提取特征的压力,还可以保证模型生成的摘要语义与原文相同,解决生成摘要与原文不相关的问题。

技术领域:

本发明属于自然语言生成领域,尤其涉及序列到序列文本摘要生成的相关方法。

背景技术:

随着信息技术的快速发展,信息爆炸正在冲击着人们的生活。一方面,现在互联网存在大量网页与文本,但是其中内容相关的文本之间存在大量多余的内容,人们阅读和获取这些重复内容耗费了大量的时间与精力。另一方面,社会发展加快人们的生活节奏,越来越碎片化的时间驱使人们通过互联网获取内容,而不是通过传统的书籍等纸质资料。因此为了解决如何从大量的文本信息中提取其中的主要内容,已经成为当今学术研究的热点。

有关文本摘要的问题,众多国内外学者对这一领域有着很深的见解,提出过很多可用性的文本摘要技术。最早有学者提出抽取式文本摘要(Extractive TextSummarization,ETS)方法,这类方法主要使用传统的统计学方法抽取出能概括内容主旨的片段。虽然这种方法一定程度的可以获取主要内容,但是有一个主要问题是,获取的摘要可能有语义不连贯的问题。随后,有学者提出生成式文本摘要(Abstractive TextSummarization,ATS)方法,这类方法可以有效解决ETS方法生成的文本摘要语义不连贯问题。这类方法使用最新的深度学习技术(Deep Learing,DL)技术,利用神经网络模仿人们的书写习惯,然后训练生成文本摘要。神经网络技术中比较经典的网络架构是Sequence toSequence(Seq2seq),最早由Cho等人提出,这种网络架构是一个Encoder,用来编码源文本输入,一个Decode用来解码,输出目标文本。这种架构是基于循环神经网络(RNN),但是因为循环神经网络是序列输入与输出,所以不能并行化训练,耗时很长。所以,Jonas等人提出了基于卷积神经网络(CNN)的seq2seq,加快训练过程。但是卷积神经网络对语言序列信息的编码能力存在缺陷,在2017年由Ashish等人提出的Transformer模型,既可以处理语言信息,又可以并行化训练。但是正常情况下,我们是无法使用无穷多的语料来训练我们的模型,这样造成Transformer生成的摘要虽然语言通顺,但是得到的语义与目标摘要有一定差距。随着Google的BERT模型在自然语言处理任务上取得的重要进步,自然语言处理技术也迈入了“预训练”的时代。

发明内容

本发明主要解决的技术问题是,利用预训练向量提取丰富特征,并构造一个保证生成摘要语义相关性强的Loss函数。首先利用Jacob等人提出的预训练模型Bert得到预训练向量,并将预训练向量与模型生成的摘要向量做余弦相似度计算,将计算结果与交叉熵损失Loss相加,作为最终的Loss,进行梯度更新。

本发明面向海量文本数据集,提出了一种增强语义相关性的摘要生成方法。对文本数据首先去除空格以及特殊字符,并根据频率去除相关字词,然后加上模型所需要的开始及结束字符<s>、<\s>,padding字符<pad>、与未知字符<unk>。接着构建我们所需要的字典,字典的key为词,value为每个词对用的id。将需要处理的文章根据字典转为相应的id,在模型Embedding层,初始化向量矩阵,然后根据id找到每个词对应的向量。同时,我们将从预训练模型得到的句向量与此处的向量做拼接,将拼接后的向量送入模型的Encoder。Decoder端的解码向量,在做Softmax之前,先与预训练向量做余弦相似度计算,将计算结果与交叉熵结果进行相加,得出需要优化的损失值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910981403.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top