[发明专利]基于知识图谱多视角信息的跨语言实体对齐方法有效

专利信息
申请号: 202010512003.9 申请日: 2020-06-08
公开(公告)号: CN111680488B 公开(公告)日: 2023-07-21
发明(设计)人: 鲁伟明;徐玮;吴飞;庄越挺 申请(专利权)人: 浙江大学
主分类号: G06F40/189 分类号: G06F40/189;G06F16/36;G06F40/279;G06N3/0464;G06N3/08;G06N3/0442
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 刘静
地址: 310058 浙江*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 知识 图谱 视角 信息 语言 实体 对齐 方法
【权利要求书】:

1.一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,包括以下步骤:

1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图;结构图以实体为节点,具有关系的实体之间形成边,根据实体之间的关系计算边的具体权重,形成图的邻接矩阵;在构建好的结构图上,采用双层图卷积网络进行训练,使用实体本身及其周围的实体编码不断更新当前实体的向量表示;两个知识图谱的图卷积网络共享权重矩阵;根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体结构向量表示;

2)基于实体描述信息的实体文本向量编码:将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图;该文本图具有两种类型的节点:实体节点和实体描述中的单词节点,具有三种类型的边:“实体-描述词”边,单语言内的“描述词-描述词”边,跨语言的“描述词-描述词”边;为每种类型的边计算权重,形成邻接矩阵;在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示;

3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络BiLSTM对实体描述进行编码获得实体描述向量;通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量;

4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据步骤1)步骤2)步骤3)分别得到的实体结构向量、实体文本向量、实体描述向量,计算实体与候选实体之间的距离,对距离从小到大排序,选择距离最小的实体对作为对齐实体对。

2.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤1)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:

1.1)邻接矩阵A的权重计算:对于实体ei和ej,它们之间的权重aij∈A计算公式为:

其中fun(r)和ifun(r)分别为关系r正向和逆向的影响分数,G为知识图谱,#Triples_of_r是关系三元组中关于关系r的三元组数量,#Head_Entities_of_r和#Tail_Entities_of_r分别是关系r的三元组涉及的头实体数量和尾实体数量;

1.2)图卷积网络中实体向量计算:图卷积网络的输入为实体结构特征矩阵由随机初始化得到,n表示总实体数量,ds表示实体结构特征向量维度;结构图的图卷积网络总体的计算公式为:

其中是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,是的对角节点度矩阵;权重矩阵Ws(0)和Ws(1)都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·);

1.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:

其中fs(p)=||hs(e1),hs(e2)||1是实体距离打分函数,计算实体结构向量之间的曼哈顿距离,hs(e1),hs(e2)分别表示实体e1,e2的结构向量;γs是结构向量之间的间隔约束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010512003.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top