[发明专利]一种基于异构图注意力网络的实体对齐方法有效
申请号: | 202110405963.X | 申请日: | 2021-04-15 |
公开(公告)号: | CN112800770B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 王晓;杨林瑶;程振荣;辛柯俊;王飞跃 | 申请(专利权)人: | 南京樯图数据研究院有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06N3/04 |
代理公司: | 南京新众合专利代理事务所(普通合伙) 32534 | 代理人: | 彭雄 |
地址: | 210000 江苏省南京市江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 构图 注意力 网络 实体 对齐 方法 | ||
1.一种基于异构图注意力网络的实体对齐方法,其特征在于,包括以下步骤:
步骤1,基于BERT预训练实体名称得到的词向量,根据词向量计算得到实体语义名称向量,并根据得到的实体语义名称向量进行聚类,将实体划分为类,得到实体类别信息;
步骤2,根据步骤1得到的实体语义名称向量和实体类别信息采用异构图注意力网络聚合不同类别的邻居信息,学习更新实体嵌入向量;
基于异构图注意力网络聚合邻居实体的信息以学习实体嵌入向量,实体嵌入向量更新公式为:
其中,为非线性激活函数,表示类型相关的邻接矩阵,其每一行表示一种实体,每一列表示一个类型为的邻居实体,表示所有实体在神经网络第层的嵌入向量矩阵,表示类型为的邻居实体在神经网络第层的嵌入向量矩阵,是类型实体的特征变换矩阵;
将实体嵌入向量更新公式分解为节点级注意力和类型级注意力,实体嵌入向量更新公式由节点级注意力和类型级注意力结合更新得到,将类型相关的注意力权重矩阵作为类型相关的邻接矩阵,其行列的元素即为实体与类型为的邻居的节点级注意力权重;
采用损失函数训练异构图注意力网络,通过最小化已知对齐实体的嵌入向量距离得到最佳的实体表示向量;
损失函数为:
其中,表示异构图注意力网络的损失函数,表示分属于知识图谱一和知识图谱二的一对等价实体,表示知识图谱一中的一个实体,表示知识图谱二中的一个实体,表示一组等价实体对,表示知识图谱二中的一个实体二,表示一组不等价的实体对,表示两个向量之间的欧式距离,表示已知的对齐种子集合,表示负样本集合,在每一轮迭代之前,通过选取知识图谱二中与知识图谱二中的一个实体的嵌入向量距离最小的实体与知识图谱一中的一个实体结合形成本轮训练的负样本, 表示一个正的阈值,表示函数;
步骤3,基于实体对嵌入向量的距离计算不同实体类别之间的相似性,结合嵌入向量相似性得到实体对之间的相似性;
实体,实体表示知识图谱一中的实体类别一,表示知识图谱二中的实体类别二,实体类别一包含的所有实体的嵌入向量为,表示类别一的实体数量,实体类别二包含的所有实体的嵌入向量为,表示类别二的实体数量,基于所含实体的成对嵌入向量之间的距离得到实体类别一和实体类别二之间的相似性:
其中,表示实体类别一和实体类别二之间的相似性,为正数;结合实体所属类别之间的相似性,实体与实体之间的相似性为:
其中, 表示实体与实体之间的相似性,为常数;根据实体与实体之间的相似性得到两知识图谱实体相似性矩阵;
步骤4,结合两知识图谱实体相似性矩阵,基于0-1整数规划识别等价实体对,得到实体对齐结果;
将等价实体对的识别问题建模为0-1整数规划问题,其目标函数为:
约束为:
其中,表示实体之间的相似性为对应的0-1决策变量,其值为1表示实体和实体对齐,否则,其值为0;求解0-1整数规划问题,得到满足一对一约束的优化的对齐结果。
2.根据权利要求1所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中根据实体名称,检索其所含字符的BERT预训练所得词向量,利用幂平均运算得到实体语义名称向量,具体方式为:
实体名称的词向量包括,幂平均运算形式为,其中,表示实体名称中第个字符的词向量,表示字符数,表示维度为的向量空间,表示实数集合,表示词向量的维数,表示幂平均参数;基于幂平均运算形式计算,得到第个实体的实体语义名称向量。
3.根据权利要求2所述基于异构图注意力网络的实体对齐方法,其特征在于:幂平均参数根据幂平均计算方法确定:使用算数平均时,为1;使用谐波平均时,为-1。
4.根据权利要求3所述基于异构图注意力网络的实体对齐方法,其特征在于:步骤1中根据实体语义名称向量采用K-means聚类方法将实体划分为类的方法:
随机选取个中心点,将每个实体分配到向量欧氏距离最近的中心点所在的类别,并基于各类别所含实体语义名称向量的平均值更新各类别的中心点,直到所有中心点不再改变,即将实体分为类。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京樯图数据研究院有限公司,未经南京樯图数据研究院有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110405963.X/1.html,转载请声明来源钻瓜专利网。