[发明专利]一种基于实体图神经网络推理的事实验证方法及其系统在审
申请号: | 202110044980.5 | 申请日: | 2021-01-13 |
公开(公告)号: | CN112765961A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 陈洪辉;陈翀昊;蔡飞;陈皖玉;郑建明;邵太华;郭昱普 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F40/226 | 分类号: | G06F40/226;G06F40/211;G06F40/284;G06F40/295;G06N3/04;G06N5/04;G06F16/901 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 曾志鹏 |
地址: | 410003 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 实体 神经网络 推理 事实 验证 方法 及其 系统 | ||
本发明提出了一种基于实体图神经网络的推理模型(RoEG),利用实体级别的信息来获取细粒度的特征,并利用图注意力神经网络机制来实现推理过程。具体来说,为了捕获证据间的语义关联,RoEG首先引入实体作为图节点并构造三种类型的边。然后利用一个选择门机制来限制信息的传播,并利用图神经网络机制实现实体特征的更新传播。最后利用一个基于注意力机制的特征聚合器来聚合实体特征以辅助标签预测任务。通过在一个大型基准数据集上的进行实验,结果表明了模型的有效性,在标签准确率和得分上击败了目前的最优基准模型。特别是在需要多条证据共同作用作出判断的困难验证集上,相比最优模型有了很大的提升;随着实体数量的增加,RoEG具有更佳的性能表现。
技术领域
本发明属于一种事实验证方法,具体是涉及到一种基于实体图神经网络推理的事实验证方法及其系统。
背景技术
随着信息爆炸,人们饱受假新闻和误导信息的困扰。自动识别信息的真实性成为越来越重要的研究问题。事实验证通过基于提取得到的信息的推理来验证陈述的真实性,其能够将给定的陈述进行标签的分类,包括支持、反对以及信息不足三种,分别表示了提取的证据是否可以支持陈述的说法,或者是无法进行判断。
现有的事实验证主要可以分为两个类别,一个是基于自然语言推断的方法,另一个是基于图的方法。前一种方法通过构建陈述-证据对,然后利用交互式匹配模型来预测标签,他们通常将所有的证据结合成一个文本序列然后进行特征的提取。而基于图的模型主要利用不同的证据句子来构建图结构。但是上述方法的缺点在于句子级别的信息,容易忽视了细微的信息表示,如地点时间和人名等。并且现有方法主要还是利用黑盒结构来聚合句子级别的信息,不能够明确的模型化人类的推理过程,比如寻找一条推理的路径。
发明内容
本发明通过引入了实体级别的信息来进行证据特征的提取并构建推理图,以解决背景技术中所记载的问题。
本发明首先提供了一种基于实体图神经网络推理的事实验证方法,参见图3,包括以下步骤:
S1:根据给出的陈述提取陈述中的关键词,使用关键词选择证据并根据证据和关键词计算得到关键词向量。
证据提取主要包括文档检索和证据选择两个阶段,以给定的的陈述和如维基百科、百度百科等文档文库作为输入,来得到与陈述相关的证据句子。
本发明首先使用句法分析工具来提取给定的陈述中的实体,将实体作为关键词来检索得到相关性最高的几篇文档。然后,过滤掉不存在于离线维基百科文档中的文档结果。(由于数据集中采用的离线版本维基百科文档与我们使用在线版本的有一定的差异。)在证据选择阶段,本发明利用BERT作为检索模型来计算给定的陈述和检索的文章中的句子之间的相似度。训练阶段采用负样本策略,可以用以下公式表示:
LRe=∑max(0,1+Sn-Sp)
其中,LRe表示这个模块的损失;Sn和Sp分别是负样本和正样本的得分。在训练阶段本发明选择与某条陈述具有最高相似度的五条句子作为证据。
对于文本向量编码,本发明将给定的陈述和其相关的证据进行拼接,并将这样的陈述-证据序列输入预训练BERT来获取陈述的词向量表示相关证据的词向量表示和通过BERT的[cls]输出获得整个序列的向量表示其中L1是陈述的长度,L2证据的长度,d1是BERT中隐藏层状态的维度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110044980.5/2.html,转载请声明来源钻瓜专利网。