[发明专利]一种基于混合知识图的注意力引导增强的常识推理框架在审
申请号: | 202310044752.7 | 申请日: | 2023-01-30 |
公开(公告)号: | CN116050523A | 公开(公告)日: | 2023-05-02 |
发明(设计)人: | 张鹏;郝楚战;谢明辉;王博;赵东明 | 申请(专利权)人: | 天津大学;中国移动通信集团天津有限公司 |
主分类号: | G06N5/04 | 分类号: | G06N5/04;G06N5/02;G06N3/042 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 韩帅 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 知识 注意力 引导 增强 常识 推理 框架 | ||
本发明提供一种基于混合知识图的注意力引导增强的常识推理框架,包括:预训练文本编码器、检索常识知识图谱模块、知识交互引导模块、常识知识聚合与传播模块和回答与解释模块;所述预训练文本编码器对一组问题q‑选项csubgt;i/subgt;对进行编码表示;所述检索图谱模块根据问题和选项进行常识推理子图筛选,并将问题‑选项对的编码表示作为子图的全局节点;所述知识交互引导模块是通过将各推理子图中的问题‑选项节点提取出来,让多个推理子图的全局节点进行信息的相互传递,并获得新的问题‑选项节点的表示等步骤,本发明在常识知识聚合阶段获得了重要推理信息,同时在知识交互引导模块让推理子图中的节点感受到了非局部的信息,扩大了模型推理过程的信息源和接收域。
技术领域
本发明涉及外部知识图谱知识融合领域和常识问答,具体讲,提出了一种基于混合知识图的注意力引导增强的常识推理框架并在多项选择的常识问答任务上验证方法的性能。
技术背景
利用知识图谱(KGs)增强的预训练语言模型已经在常识推理领域表现出色,以常识问答任务为例,现有的方法通常根据单个选项检索的常识知识图单独地估计该选项的置信分数,没有考虑到不同选项之间的干扰效应,此外某些单独建模问题和选项之间路径的模型容易受到知识图谱稀疏性和规模的影响,因此图神经网络被广泛用于从知识图谱中隐式地捕获相关的常识知识,但检索回来的知识图谱中往往包含了大量的噪声知识,如何有效地过滤噪声知识也成为了一个研究难点。
一些早期的工作主要是利用LSTM[1]、RGCN[2]等常见网络来单独建模问题到选项间的k跳内的路径,从而实现多跳推理,如RNs[3]、KagNet[4]、MHGRN[5]等,这类方式为问答和解释和可信预测提供了可能,但其k跳内的路径随节点呈多项式与指数增长,时间复杂度较高,限制了其融合丰富的外部知识的能力,这使得该方法在可解释性和效率间存在这一定的局限性,仍有待改进。
随着对图神经网络和预训练语言模型研究的不断深入,不同的图算法和预训练策略被用于知识图谱上学习相关的常识知识。例如QAGNN[6]和GREASELM[7],QAGNN在给定上下文的条件下,使用语言模型估计检索的知识图谱中实体的重要性,同时基于GAT[8]网络构建联合推理图来更新节点表示,这种方法充分利用了语言模型的能力选取有效的知识图谱,再利用图结构有效聚合重要信息;GREASELM进一步通过对语言模型和图神经网络进行多层次深度交互,有效捕捉到图神经网络的结构信息与语言模型的语义约束,从而提升了模型在问答任务上的性能和处理复杂问题的能力。但值得注意的是每个选项的外部知识融合和推理过程是相互独立的,缺乏全局角度的思考,且在融合图结构的常识知识时,往往忽略了不同边对推理过程起到不同程度的作用,这使得模型在常识知识融合和推理过程中存在一定的局限性,该方法仍有待改进。
最近,基于全局-局部注意力信息聚合和混合图网络等方法被提出,基于这一类模型的思想,在本申请的工作中试图探索出更高效地进行不同子图间的信息交互,以及从知识图谱中聚合更有效的节点特征表达的知识图谱增强的常识推理框架。
本发明将问题-选项对作为推理子图的全局节点,筛选出所有子图的全局节点并利用Multi-HeadAttention[9]和HighwayNetwork[10]计算得到交互后的特征表示节点,此时的每个子图全局节点融合了其余子图中的信息,然后在各自的子图中为了获得更加有效的节点特征表示,利用本发明所设计的混合注意力机制对知识图谱上的有效知识进行聚合和传播,得到更新后的节点的特征,再经过多层的不断增强过后,重要的选项信息也得以保留传递。相比于之前的基于知识图谱增强的模型,该方法将每个选项的信息感受域扩张到全局,同时在知识图谱上进行消息聚合与传播过程中加入了混合注意力机制,两种方法相互受益,在相关的多项选择常识问答数据集上效果显著提升。
[参考文献]
[1]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neuralcomputation,1997,9(8):1735-1780.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学;中国移动通信集团天津有限公司,未经天津大学;中国移动通信集团天津有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310044752.7/2.html,转载请声明来源钻瓜专利网。