[发明专利]双阶段文本摘要方法在审

专利信息
申请号: 202010896987.5 申请日: 2020-08-31
公开(公告)号: CN112100365A 公开(公告)日: 2020-12-18
发明(设计)人: 桂盛霖;刘一飞 申请(专利权)人: 电子科技大学
主分类号: G06F16/34 分类号: G06F16/34;G06F40/30
代理公司: 电子科技大学专利中心 51203 代理人: 周刘英
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 阶段 文本 摘要 方法
【说明书】:

发明公开了一种双阶段文本摘要方法,涉及自然语言处理领域。该方法首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。本发明通过抽取重要的子句,去除了文本的无关或冗余内容,使得进入第二个阶段的语句输入尽量少,保证第二阶段输出摘要的质量尽量高。

技术领域

本发明涉及自然语言处理领域,具体涉及一种双阶段文本摘要方法。

背景技术

随着我国社会经济以及互联网技术的高速发展,人们逐渐使用电子设备并通过网络通道进行日常的交流、工作和信息获取等。2019年8月30日,中国互联网络信息中心(CNNIC)在北京发布第44次《中国互联网络发展状况统计报告》。《报告》指出,到2019年6月,我国网民的数量比2018年年底增加了2598万,网民总数量达到了8.54亿,其中手机网民的数量达到了8.47亿,且网民通过手机上网的比例高达99.18%。

如此庞大的互联网使用率导致了数据过载的问题,据统计,互联网数据量已跃至ZB级别,其中,文本信息成为人们使用互联网获取信息的主要来源,导致了文本信息的爆炸式增长,成为互联网数据的“主力军”。而随之出现的一系列营销号题文不对称的现象也让人们深恶痛绝,例如各大社交软件和新闻头条的“标题党”。至此,如何解决低效阅读和数据过载问题,快速获取文本中的关键信息成为当代互联网的首要问题,由此,文本摘要技术应运而生。

目前国内外常用的自动文本摘要技术根据摘要产生的不同方法可以分为三种:抽取式、压缩式和生成式。抽取式方法实现简单,只是从文档中抽取已有的句子形成摘要,可以保留文档中完整的句子,生成的摘要可读性良好,可看作一个组合优化问题。早年抽取式方法应用较为广泛,发展至今,抽取式摘要已经是一种比较成熟的方案,其中Textrank排序算法以其简洁、高效的特点被工业界广泛运用。压缩式方法是同时对原文的句子进行抽取与压缩或抽取与融合,可以有效提高ROUGE值,但会牺牲句子的可读性。而生成式摘要通常需要自然语言理解技术来执行文本的语法和语义分析,融合信息,并使用自然语言生成技术生成新的摘要句子。随着2005年神经网络的二次兴起,深度学习在人工智能领域崛起,基于深度学习的生成式文本摘要方法在摘要生成质量和流畅度上都有了质的飞跃,也成为了摘要生成的主流研究方向,

目前生成式文本摘要方法的做法是将数据集中的原文直接输入模型,让模型学习理解,但事实上原文中通常会包括一些无用信息和冗余信息,如果将这些冗余信息连同关键信息一起输入到生成式文本摘要模型中进行训练,一方面,这些信息会对文本主题的表达造成混乱,使得模型编码器编码得到的语义向量对文本主题的表征有偏差;另一方面,这些信息增加了模型的输入长度,且Seq2Seq模型中的编码器常使用RNN及其变体来实现,它们较适用于短序列,过长的序列一方面会导致文本信息在编码的过程中逐步丢失,另一方面会导致梯度在反向传播的过程中逐渐消失,则模型的效果会受到影响。

发明内容

针对上述问题,本发明提出一种双阶段式文本摘要方法,首先从原文本中将与文本主题最为相关的子句抽取出,且尽可能的保证这些子句中包含更多文本关键词,然后将抽取出的内容作为生成式文本摘要模型的输入,进行第二阶段的学习和训练。

本发明中所使用的文本摘要数据集记为D,D中的每个文本摘要数据对记为(src,tgt),src表示每个文本摘要数据对中的原文,tgt表示每个文本摘要数据对中的标准摘要。

本发明由两个阶段、4个步骤组成,其中第一阶段包括步骤S1)至步骤S3),第二阶段包括步骤S4),第一阶段中抽取子句的主要过程如图1所示。4个步骤的主要内容分别是:

S1)获得关键词概率预测模型:对文本摘要数据集D中的每个文本摘要数据对(src,tgt)进行分析和处理,获得数据集T_W,根据序列标注的思想构建关键词概率预测模型,然后将数据集T_W划分为训练集、验证集和测试集,对关键词概率预测模型进行训练、验证和测试。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010896987.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top