[发明专利]一种基于动态阈值的迭代式知识图谱实体对齐方法有效
申请号: | 202010869967.9 | 申请日: | 2020-08-26 |
公开(公告)号: | CN112131395B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 张元鸣;高天宇;肖刚;陆佳炜;程振波 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/0464;G06F18/214;G06F18/22;G06F40/30 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 阈值 迭代式 知识 图谱 实体 对齐 方法 | ||
1.一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,所述方法包括以下步骤:
1)人工标注少量的对齐实体对作为训练集的种子;
2)对两个知识图谱中的实体和关系随机初始化为300维的向量;
3)分别对两个知识图谱的结构进行编码,得到两个直接邻接矩阵、两个间接邻接矩阵和两个关系三元组集合;
4)将3)中得到的直接邻接矩阵和间接邻接矩阵输入到邻域扩展的图卷积模型GCN中,得到邻节点的特征表示;
5)将3)中得到的两个关系三元组集合和4)中得到的实体向量,输入到翻译模型TransE当中,由此得到融合了关系语义信息和邻节点结构信息的实体的嵌入式表示;
6)通过1)中预对齐实体对集合,根据对齐的损失函数将两个知识图谱的实体映射到同一个向量空间当中;
7)动态阈值迭代对齐模块根据实体相似度从未标注的对齐实体中动态地捕获可能对齐的实体对;
8)将这些筛选得到的实体对暂时地加入到训练集当中,参与到下一轮训练当中;
9)循环执行步骤4)-8),直至实体的嵌入收敛,得到最终的实体嵌入;
10)根据9)中得到的实体嵌入,计算实体的相似度,得到最终实体对齐的结果;
在所述步骤1)中,人工标注少量的对齐实体集合对我们定义为实体对齐的目标是根据尽可能地找到两个知识图谱中其他相互对齐的实体对集合其中Ai,Ui分别表示知识图谱KGi中预先标记为对齐的实体和未标记对齐的实体集合,Ei=Ai∪Ui,i∈{1,2},在e1和e2之间的~表示等价对齐关系;
在所述步骤7)中,动态阈值迭代对齐模块捕获可能对齐实体对的过程如下:在第t次迭代中,对于所有未对齐的实体e∈U1∪U2,从其候选对齐实体集合中分别找到与它们自己对齐概率最大且概率超过θ(t)的实体,组成可能的对齐实体对,然后取并集以保证一对一约束,然后得到第t次迭代中可能对齐的实体对集合并作为预先对齐实体对的补充,定义如下:
其中表示在第t迭代中实体ei,ej之间的对齐概率,是实体e的候选对齐实体对集合,表示第t次迭代中,与实体e的对齐概率超过阈值的实体集合,动态阈值会随着训练的进行而衰减,其取值范围为(0,1),定义如下:
其中γ是初始阈值,ω0为衰减系数,控制阈值衰减的下限,λ为衰减速率。
2.如权利要求1所述的一种基于动态阈值的迭代式知识图谱实体对齐方法,其特征在于,定义与实体e只有一条关系直接相连的实体集合为直接邻节点集合Ne,1={e′|(e,r,e′)∈T}∪{e′|(e′,r,e)∈T},定义与实体e∈E需要经过两条关系相连的实体的集合为间接邻节点集合Ne,2={e″|(e″,r,e′)∈T,e′∈Ne,1}∪{e″|(e′,r,e″)∈T,e′∈Ne,1};所述步骤3)中,直接邻接矩阵反映的是任意两个实体之间是否互为直接邻节点的关系,若是否互为直接邻节点的关系则矩阵对应位置为1,否则则为0;间接邻接矩阵反映的是任意两个实体之间是否互为间接邻节点的关系,若是则为1,反之则为0;关系三元组表示为(h,r,t),h为头实体,r为关系,t为尾实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010869967.9/1.html,转载请声明来源钻瓜专利网。