[发明专利]一种基于异构图注意力网络的实体对齐方法有效

专利信息
申请号: 202110405963.X 申请日: 2021-04-15
公开(公告)号: CN112800770B 公开(公告)日: 2021-07-09
发明(设计)人: 王晓;杨林瑶;程振荣;辛柯俊;王飞跃 申请(专利权)人: 南京樯图数据研究院有限公司
主分类号: G06F40/295 分类号: G06F40/295;G06F40/30;G06F16/35;G06N3/04
代理公司: 南京新众合专利代理事务所(普通合伙) 32534 代理人: 彭雄
地址: 210000 江苏省南京市江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 构图 注意力 网络 实体 对齐 方法
【说明书】:

发明公开了一种基于异构图注意力网络的实体对齐方法,首先,基于聚类将实体划分为不同类别;然后,基于异构图注意力网络学习实体的嵌入向量;基于实体嵌入向量计算不同实体类别之间的相似性,结合向量相似性得到任意实体对的相似性;最后,将实体对齐问题建模为整数规划问题,通过求解获得满足一对一对齐约束的对齐结果。本发明不仅时间复杂度低,而且实体对齐精度高。

技术领域

本发明属于知识融合领域,具体地涉及实体对齐相关的基于异构图注意力网络的实体对齐方法。

背景技术

随着知识库规模的扩大和实体数量的增加,不同知识库之间的实体链接的重要性日益凸显,多知识图谱的实体对齐成为研究的热点方向。

目前的实体对齐相关技术与方法来源于数据库中的实体匹配,但是,在实际应用中,存在许多问题和挑战,其中最突出的是计算复杂度、数据对齐质量的问题。在大数据条件下,知识库数据量庞大繁杂,传统的实体对齐算法时间复杂度高,实体对齐精度不足。

发明内容

发明目的:为了克服现有技术中存在的不足,本发明提供一种时间复杂度低、实体对齐精度高的基于异构图注意力网络的实体对齐方法。

技术方案:为实现上述目的,本发明采用的技术方案为:

一种基于异构图注意力网络的实体对齐方法,包括以下步骤:

步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为类,得到实体类别信息。

步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量。

基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:

其中,为非线性激活函数,表示类型相关的邻接矩阵,其每一行表示一种实体,每一列表示一个类型为的邻居实体,表示所有实体在神经网络第层的嵌入向量矩阵,表示类型为的邻居实体在神经网络第层的嵌入向量矩阵,是类型实体的特征变换矩阵。

将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将类型相关的注意力权重矩阵作为类型相关的邻接矩阵,其行列的元素即为实体与类型为的邻居的节点级注意力权重。

采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量。

损失函数为:

其中,表示异构图注意力网络的损失函数,表示分属于知识图谱一和知识图谱二的一对等价实体,表示知识图谱一中的一个实体,表示知识图谱二中的一个实体,表示一组等价实体对,表示知识图谱二中的一个实体二,表示一组不等价的实体对,表示两个向量之间的欧式距离,表示已知的对齐种子集合,表示负样本集合,在每一轮迭代之前,通过选取中与的嵌入向量距离最小的实体与结合形成本轮训练的负样本, 表示一个正的阈值,表示函数。

步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性。

实体,实体表示知识图谱一中的实体类别一,表示知识图谱二中的实体类别二,实体类别一包含的所有实体的嵌入向量为,表示类别一的实体数量,实体类别二包含的所有实体的嵌入向量为,表示类别二的实体数量,基于所含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:

其中,表示实体类别一和实体类别二之间的相似性,s是一个足够大的正数,一般取10。结合实体所属类别之间的相似性,实体与实体之间的相似性为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京樯图数据研究院有限公司,未经南京樯图数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110405963.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top