[发明专利]一种基于子图嵌入的跨语言实体对齐方法在审

专利信息
申请号: 202010823162.0 申请日: 2020-08-17
公开(公告)号: CN111931505A 公开(公告)日: 2020-11-13
发明(设计)人: 张春霞;薛惠民;汪安平;道捷;彭成;牛振东 申请(专利权)人: 北京理工大学
主分类号: G06F40/295 分类号: G06F40/295;G06N3/04
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 张利萍
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 嵌入 语言 实体 对齐 方法
【权利要求书】:

1.一种基于子图嵌入的跨语言实体对齐方法,其特征在于:包括以下步骤:

步骤1:构建实体信息、属性信息、训练集和测试集;

步骤2:构建训练集的实体嵌入矩阵初始值,跨语言知识图谱KG1和KG2的邻接矩阵;

步骤3:基于训练集,训练图卷积网络模型,生成实体的嵌入表示;

步骤3,具体包括如下子步骤:

步骤3.1:将训练集的实体嵌入矩阵初始值,以及表示知识图谱KG1的图G1的邻接矩阵输入至图卷积网络GCN1,即生成图卷积网络GCN1的第一层神经网络层的输入;图卷积网络GCN1包含若干神经网络层,模型参数在不同神经网络层之间共享;

步骤3.2:将训练集的实体嵌入矩阵初始值,以及表示知识图谱KG2的图G2的邻接矩阵输入至图卷积网络GCN2,即生成图卷积网络GCN2的第一层神经网络层的输入;

步骤3.3:图卷积网络GCN2与图卷积网络GCN1采用相同方式生成每一层神经网络层的输入;

步骤3.4:基于子图嵌入生成图卷积网络GCN1和GCN2的结点的嵌入表示,图卷积网络GCN1的结点嵌入表示和GCN2的结点嵌入表示采用相同方式生成;具体为:根据预设的子图窗口大小在来生成每个结点的子图嵌入,不断迭代来优化图卷积网络模型;对于图卷积网络模型的结点,其子图窗口大小是指计算结点的子图嵌入所考察的子图大小范围;将直接存在关系边连接的两个结点间距离定义为1,将与结点距离小于给定阈值的结点集合划分在子图中;用窗口大小约束参与每一层的结点的子图嵌入的计算;

对于图卷积网络GCN1,在计算结点vi的子图嵌入时,子图中不同结点通过注意力机制在计算结点vi的子图嵌入时赋予不同的权重,其原因在于:结点vi子图中的结点与结点v的关联程度不同,因此子图中不同结点对子图嵌入计算的贡献也不同;

其中,子图嵌入的注意力机制通过构建注意力矩阵实现,具体为:对于结点vi,设Vsg表示vi子图内的所有结点集合,结点vj和vk都属于集合Vsg;构建注意力矩阵S,元素sij表示结点vj对结点vi的重要程度,即在知识图谱中结点vj所表示实体对结点vi所表示实体的重要程度,元素sij的计算方法如公式(7)所示:

其中,为参数,ei为结点vi的嵌入表示,ej为ei的子图内结点vj的嵌入表示,ek为ei的子图内结点vk的嵌入表示,Esg表示ei子图内的所有结点的嵌入表示集合;W为一个线性神经网络层,“||”表示向量的拼接操作;LeakyReLU(·)函数的作用是对负值赋予一个非零的斜率,yi=LeakyReLU(xi),计算方法如公式(8)所示:

生成结点vi的子图嵌入表示h′i,如公式(9)所示:

其中,hj为基于图卷积网络生成的结点vj的嵌入表示,W1是可训练的权重矩阵,sij为根据公式(7)计算的注意力机制的权重,σ(·)为非线性激活函数,Ebag={h11,h12,…,h1n},即由第l神经网络层每个结点的嵌入表示h11,h12,…,h1n构成的集合;

对于结点vi,将其嵌入表示hi与其子图嵌入表示h′i融合,并输入至下一神经网络层中,参与计算模型下一神经网络层的输出,重复步骤3.3和步骤3.4,结点嵌入在图卷积网络模型的每一层逐步优化,直至图卷积网络的输出层,生成结点所表示实体的嵌入表示;即生成图卷积网络GCN1中结点所表示实体的嵌入表示,生成图卷积网络GCN2的结点嵌入表示;

步骤4:在利用训练集完成图卷积网络模型的参数训练后,将测试集输入至图卷积网络模型,基于图卷积网络和子图嵌入,生成测试集中实体的嵌入表示;

步骤5:判别测试集中的实体对齐关系,具体为:

对于测试集中待对齐的跨语言实体对(xu,yv),计算每一实体对(xu,yv)的嵌入表示(eu,ev)相似度,eu和ev分别为实体xu和实体yv的嵌入表示;

对于每一实体xu,根据余弦相似度计算结果,构建与实体xu对齐的候选实体集合T;进一步,按照余弦相似度非降序顺序,对候选实体集合T排序,构建有序实体列表Te

最后,输出所有实体xu以及与其具有对齐关系的有序实体列表Te

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010823162.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top