[发明专利]基于GCN孪生网络的跨语言知识图谱实体对齐方法有效
申请号: | 201910676206.9 | 申请日: | 2019-07-25 |
公开(公告)号: | CN110472065B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 罗绪成;谭俊杰 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06N3/04;G06N3/08 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 温利平;陈靓靓 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 gcn 孪生 网络 语言 知识 图谱 实体 对齐 方法 | ||
1.一种基于GCN孪生网络的跨语言知识图谱实体对齐方法,其特征在于,包括以下步骤:
S1:对于两种语言的知识图谱KG1、KG2,分别提取每个知识图谱的信息,具体方法如下:
对于知识图谱KGi,i=1,2,提取其关系三元组和属性三元组,关系三元组记为[ai(j),bi(j,j′),ai(j′)],ai(j)、ai(j′)分别表示知识图谱KGi中的第j个和第j′个实体,1≤j≠j′≤Ni,Ni表示知识图谱KGi中的实体数量,bi(j,j′)表示实体ai(j)、ai(j′)之间的关系,属性三元组记为(ai(j),ci(k),di(j,k)),ci(k)表示实体ai(j)的属性类别,1≤k≤Ki,Ki表示知识图谱KGi中的属性数量,di(j,k)表示实体ai(j)属性ci(k)的值;
S2:对于知识图谱KGi,遍历其所有关系三元组,将实体作为节点,将存在关系的两个实体之间添加边,得到知识图谱KGi对应的无向图Gi,根据无向图Gi得到邻接矩阵Ai;
S3:对于知识图谱KGi,统计其Ki个属性在该知识图谱KGi的属性三元组中出现的次数,按照出现次数从大到小对Ki个属性进行排序,选择前D个属性作为特征属性;采用以下公式计算每个知识图谱KGi的D个特征属性的权值wid:
其中,fid表示知识图谱KGi的第d个特征属性在知识图谱KGi的属性三元组中出现的次数;
对于每个知识图谱KGi中的每个实体,构建其特征属性向量xij=(λij1,λij2,…,λijD),λijd表示知识图谱KGi中第j个实体中第d个特征属性对应的元素值,当知识图谱KGi中第j个实体存在第d个特征属性的属性三元组,则令λijd=wid,否则令λijd=0;将知识图谱KGi中的每个实体的特征属性向量xij作为行向量,构建Ni×D的矩阵X′i,对矩阵X′i进行归一化,将归一化后的矩阵作为属性信息矩阵Xi;归一化的计算公式如下:
Xi=RX′i
其中,R表示大小为Ni×Ni的对角矩阵,其对角线上的元素
S4:将两种语言的知识图谱KG1和KG2中已知的对齐实体对作为正样本,构成正样本集合;
S5:对于关系结构信息和属性信息分别构建一个GCN孪生网络,分别记为GCN_SE、GCN_AE,每个GCN孪生网络GCN_ω包括两个分支,ω∈{SE,AE},每个分支对应一个知识图谱的输入,每个分支均由一个GCN网络和一个BN层组成,两个分支的GCN网络的结构配置相同,包含L层级联的图卷积层,且两个分支的GCN网络的最后一层图卷积层共享参数;GCN网络中各层图像卷积层的输出计算公式如下:
其中,γ表示图卷积层序号,γ=1,2,…,L,表示GCN网络中第γ层、第γ-1层图卷积层的输出,当ω=AE时,当ω=SE时,为单位矩阵;σ表示激活函数,I表示单位矩阵,表示矩阵的度矩阵,Wiω(γ)表示GCN网络中第γ层图卷积层的权重矩阵;
将GCN网络的输出输入至BN层,得到大小为Ni×V的嵌入空间矩阵,其中第j行向量即为知识图谱KGi中第j个实体对应的嵌入向量;
S6:将两个知识图谱KGi的邻接矩阵Ai作为关系结构信息的GCN孪生网络GCN_SE的输入,对GCN孪生网络GCN_SE进行训练;将两个知识图谱KGi的邻接矩阵Ai和属性信息矩阵Xi作为属性信息的GCN孪生网络GCN_AE的输入,对GCN孪生网络GCN_AE进行训练;
在训练过程中,每次迭代过程的损失函数采用以下方法计算:
首先采用定向负采样获取负样本集合,具体方法为:记正样本中所包含的实体集合为P,随机从两个知识图谱的所有实体中采样得到一组实体,构成实体集合S;对于集合P中各个正样本实体,计算当前GCN孪生网络GCN_ω输出的该实体对应的嵌入向量与集合S中每个实体对应的嵌入向量之间的距离,按照距离从小到大对集合S中实体进行排列,选择第α个到第α+β个实体,与该正样本实体构成β个实体对,将这β个实体对作为负样本加入负样本集合,其中α和β根据实际需要设置;
对于每个正样本实体,将其在正样本集合中对应的实体对,分别和其在负样本集合中的β个实体对构成β组正-负样本对,从而得到正-负样本对集合;从正-负样本对集合中随机获取Z组正-负样本对,采用以下公式计算得到本次迭代的损失函数值Loss:
其中,dpos(z)表示第z组正-负样本对的正样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,dneg(z)表示第z组正-负样本对的负样本实体对中两个实体由GCN孪生网络GCN_ω所得到的嵌入向量之间的距离,margin表示预设的超参数;
S7:在GCN孪生网络训练好,模型达到收敛之后,每个GCN孪生网络GCN_ω的输出代表知识图谱中各个实体的嵌入向量,根据GCN孪生网络GCN_SE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量根据GCN孪生网络GCN_AE的输出得到两个知识图谱KGi中各个实体对应的嵌入向量随后将两个嵌入向量以一定比例拼接起来,从而得到每个实体的最终嵌入向量其中0<ρ<1;
根据需要从两个知识图谱KGi中选择一个知识图谱作为基准知识图谱,从该基准知识图谱中选择未对齐的实体作为待对齐实体,计算这些待对齐实体的最终嵌入向量与另一知识图谱中各个未对齐实体的最终嵌入向量之间的欧式距离,选择距离最小的实体作为待对齐实体的对齐实体,从而得到对齐实体对。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910676206.9/1.html,转载请声明来源钻瓜专利网。