[发明专利]基于关系上下文进行实体对齐的图神经网络模型及方法在审
申请号: | 202110281892.7 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113157935A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 王杰;蔡健宇;王学良;吴枫 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/211;G06F40/295;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关系 上下文 进行 实体 对齐 神经网络 模型 方法 | ||
本发明公开了一种基于关系上下文进行实体对齐的图神经网络模型及方法,模型包括:实体上下文模块,根据对齐的实体种子,以知识图谱中每一个实体及其周围的子图信息作为输入,输出该实体的实体上下文向量;关系上下文模块,根据对齐的实体种子,以知识图谱中每一个实体及其周围的子图信息作为输入,输出该实体的关系上下文向量;向量拼接模块,能拼接实体上下文模块和关系上下文模块输出的实体上下文向量与关系上下文向量,得到实体的最终向量;相似度判断模块,能计算两个实体的最终向量的内积作为这两个实体的相似度得分。该模型及方法有效地利用并建模了知识图谱中的关系信息,同时结合了图神经网络相关技术,取得了显著的性能提升。
技术领域
本发明涉及知识图谱处理领域,尤其涉及一种基于关系上下文进行实体对齐的图神经网络模型及方法。
背景技术
知识图谱是一种多关系有向图,图中的每个节点都表示一个实体,每条边都表示两个实体之间的关系,而边的方向则表示了该关系的指向性。知识图谱中的每个事实(Fact)一般以三元组(头实体,关系,尾实体)的形式存储,例如,一个人的三元组为:姚明,出生地,上海。
在实际应用中,当构建知识图谱时,知识的来源语料可能是跨语言(中文、英文等不同语言)和跨源(不同的语料库)的。这些跨语言与跨源的知识图谱之间存在许多相同的实体与关系,但它们往往表现为不同的形式,如中文知识图谱中的实体“姚明”与英文知识图谱中的“Yao Ming”表示的实际上是同一实体。除此之外,这些知识图谱之间往往也存在许多互补的知识。因此,需要将这些跨语言与跨源的知识图谱进行知识融合,以获得规模更大、更完整的知识图谱,从而更好地应用于下游任务。知识融合的方式之一为实体对齐。实体对齐旨在将寻找两个知识图谱中匹配的实体对(如上文提到的“姚明”与“Yao Ming”)。
目前是使用知识图谱的分布式表示(也称为知识图谱嵌入)来执行实体对齐任务。这些方法将实体表示为统一向量空间中的低维向量,并要求对齐的实体对具有近似相同的嵌入。近几年,图神经网络(Graph Neural Networks)通过利用节点的邻域信息,在图的建模表示领域显示出了强大的能力。最近的一些工作也开始利用GNN进行实体对齐,这些工作基于两个对齐的实体应该具有相似的相邻节点这一假设,带来了显著的性能提升。然而,现实世界中的知识图谱经常会遇到错误对齐问题,即两个不同的实体也可能拥有相似的邻域信息,因此可能会被只利用实体信息的传统GNN模型错误对齐。图1示意了这种错误问题,实体对Limestone County和George_S._Houston虽然在语义上截然不同,前者是一个地点而后者是人,但由于它们拥有相似的相邻实体,被传统的GCN将它们错误判断为应该对齐的实体。
为了解决错误对齐问题,研究人员提出了不同的方法,一种是利用MuGNN的方法,其假设错误对齐问题是由于知识图谱的结构不完整,即知识图谱中的部分链接是缺失的。因此,它首先进行知识图谱补全,然后基于补全后的知识图谱进行实体对齐。另一种AliNet的方法直接聚合多跳邻居节点以增加两个对齐实体之间的邻域重合度。
现有这两种方法通过增加知识图谱间实体的连接(对知识图谱进行补全或是直接聚合多跳邻居节点),使得不同的实体对的邻居实体尽量不同,同时增加两个对齐实体之间的领域重合度,从而达到解决错误对齐问题的目的。
然而,这两种方法至少存在以下问题:(1)新增的实体间连接无法保证是完全正确的,因此会引入噪声,从而带来的性能提升有限;(2)这些方法没有考虑知识图谱中丰富的关系信息。
发明内容
基于现有技术所存在的问题,本发明的目的是提供一种基于关系上下文进行实体对齐的图神经网络模型及方法,能解决现有解决知识图谱遇到错误对齐问题所采用的MuGNN或AliNet的方法,所存在的新增的实体间连接无法保证是完全正确的,因此会引入噪声,使得性能提升有限,以及没有考虑知识图谱中丰富的关系信息的问题。
本发明的目的是通过以下技术方案实现的:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110281892.7/2.html,转载请声明来源钻瓜专利网。