[发明专利]一种基于图知识和主题感知的抽象文本摘要方法在审

专利信息
申请号: 202111654105.5 申请日: 2021-12-30
公开(公告)号: CN114218928A 公开(公告)日: 2022-03-22
发明(设计)人: 姜明;邹一凡;张旻 申请(专利权)人: 杭州电子科技大学
主分类号: G06F40/253 分类号: G06F40/253;G06F40/211;G06F40/216;G06F40/30;G06N3/04;G06N3/08
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 朱月芬
地址: 310018 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 主题 感知 抽象 文本 摘要 方法
【说明书】:

发明公开了一种基于图知识和主题感知的抽象文本摘要方法。本发明提出了一种基于BERT、神经主题模型和图神经网络的模型,被称为GTASum。在文档编码器输入端,使用BERT获得文档的隐藏词向量;在主题编码器输入端,使用神经主题模型获得文档的单词‑主题分布向量;将两个向量输入到图神经网络中进行训练,得到融合了主题知识的上下文内容,并用基于Transformer的解码器生成文本;同时,本发明提出的条件归一化的LN层能协同训练神经主题模型和解码器,有效地进行特征选择。结果表明,这种方法具有更好地鲁棒性和自适应能力。

技术领域

本发明属于自然语言处理技术领域,设计文本摘要生成方法,具体是一种基于图知识和主题感知的抽象文本摘要方法,一种基于预训练语言模型、神经主题模型和图神经网络的文本摘要生成方法。

背景技术

随着计算机性能与大规模语言模型的发展,自然语言处理任务(NLP)取得了重大的发展。摘要任务作为自然语言处理任务的核心问题之一,旨在让人们快速掌握文本中的重要信息。文本摘要已经被广泛应用于多个领域,如新闻、金融、会议和医疗等。目前,摘要任务主要有两种方法:抽取式方法和抽象式方法。抽取式方法主要从原文中复制重要信息,然后将它们聚合成文本。这种方法产生的摘要通常会保留源文本的显著信息,有着正确的语法,但不可避免的是容易产生大量冗余信息。抽象式方法是根据对源文本输入的理解来形成摘要。它试图去理解文本内容,可以生成原文中没有的单词,更加接近摘要本质,具有生成高质量摘要的潜力。综上,为了更好地生成新闻摘要,帮读者快速高效地掌握每日讯息,本研究侧重于抽象的摘要。

在抽象摘要中,序列到序列已经成为多种架构的主导框架。在早期,抽取式文本摘要主要是基于RNN的编-解码器。由于“长距离依赖”问题,RNN到最后一个时间步输入单词时,已经丢失了大量信息,因此Bahdanau等人将Attention机制应用于NLP中。此后,文本摘要进入大发展,各种应用层出不穷。其中,最令人瞩目的当属Transformer架构。该模型在诸多领域取得了惊人的表现。目前的SOTA抽象模型,包括BART、PEGASUS和ProphetNet等都采用基于Transformer的体系结构。并且,在注意力机制的贡献下,基于Transformer的模型可以很好地捕获token之间的语法和上下文信息。然而,更高层次的语义理解却表现不佳。

为了解决这个问题,研究人员尝试了多种改进手段,其中一种方式就是利用主题感知的方式。主题模型,比如LDA、PFA、NVDM、NTM都能为文档理解提供额外的信息。对于文本摘要,我们通过将主题模型特性合并到摘要模型中,我们相信它能够提高模型性能。此外,近年来,图神经网络(GNNs)被广泛应用于摘要任务的跨句关系建模。一些研究建立了基于语篇分析的文档图。然而,这种方式依赖外部工具,可能导致语义上的碎片化输出。Wang和Liu等人构建了词句文档图,但这种方式很难捕获到语义级关系,因此,如何有效地将文档构建为可摘要的图也是个难题。

发明内容

本发明的目的是针对现有技术的不足,提供一种基于图知识和主题感知的抽象文本摘要方法。

本发明解决其技术问题所采用的技术方案包括以下步骤:

步骤(1):给定原始输入文档D,对原始输入文档D中每个句子的开头和结尾分别插入[CLS]和[SEP],然后将处理后的输入文档D放入预训练语言模型BERT,学习句子的特征表示HB

步骤(2):将原始输入文档D输入到神经主题模型NTM,学习文档的主题表示HT

步骤(3):将句子的特征表示HB和文档的主题表示HT输入到图注意网络GAT中,并进行初始化;经过图注意网络GAT编码后,生成带有主题信息的句子特征h';GAT编码过程是构建一个带有主题和句子的异构文档图,同时不断更新特征表示HB和主题表示HT所构成的节点表示;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111654105.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top