[发明专利]基于知识图谱多视角信息的跨语言实体对齐方法有效
申请号: | 202010512003.9 | 申请日: | 2020-06-08 |
公开(公告)号: | CN111680488B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 鲁伟明;徐玮;吴飞;庄越挺 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F40/189 | 分类号: | G06F40/189;G06F16/36;G06F40/279;G06N3/0464;G06N3/08;G06N3/0442 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识 图谱 视角 信息 语言 实体 对齐 方法 | ||
1.一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,包括以下步骤:
1)基于关系三元组的实体结构向量编码:根据关系三元组分别为两个语言的知识图谱构建结构图;结构图以实体为节点,具有关系的实体之间形成边,根据实体之间的关系计算边的具体权重,形成图的邻接矩阵;在构建好的结构图上,采用双层图卷积网络进行训练,使用实体本身及其周围的实体编码不断更新当前实体的向量表示;两个知识图谱的图卷积网络共享权重矩阵;根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体结构向量表示;
2)基于实体描述信息的实体文本向量编码:将两个语言的知识图谱合并,使用实体和描述文本构建统一的文本图;该文本图具有两种类型的节点:实体节点和实体描述中的单词节点,具有三种类型的边:“实体-描述词”边,单语言内的“描述词-描述词”边,跨语言的“描述词-描述词”边;为每种类型的边计算权重,形成邻接矩阵;在构建好的文本图上,采用双层图卷积网络进行训练,根据预先对齐的跨语言对齐实体对S,以及正负例实体对三元损失函数,优化实体文本向量表示;
3)基于实体描述信息和跨语言语料的实体描述向量编码:在两种语言的单语言语料以及跨语言平行语料上使用Bilbowa预训练跨语言对齐的单词向量,然后将每个实体描述的一系列单词向量作为输入,用双向长短时记忆网络BiLSTM对实体描述进行编码获得实体描述向量;通过优化预先对齐的跨语言对齐实体对S的实体描述向量之间的距离来优化网络结构,得到所有实体最终的描述向量;
4)根据多视角实体向量计算跨语言对齐实体对:对于一个语言知识图谱中的每个实体,将另一语言知识图谱的每个实体作为候选实体,根据步骤1)步骤2)步骤3)分别得到的实体结构向量、实体文本向量、实体描述向量,计算实体与候选实体之间的距离,对距离从小到大排序,选择距离最小的实体对作为对齐实体对。
2.根据权利要求1所述的一种基于知识图谱多视角信息的跨语言实体对齐方法,其特征在于,所述的步骤1)中,邻接矩阵A的权重计算和图卷积网络中实体向量计算、损失函数具体如下:
1.1)邻接矩阵A的权重计算:对于实体ei和ej,它们之间的权重aij∈A计算公式为:
其中fun(r)和ifun(r)分别为关系r正向和逆向的影响分数,G为知识图谱,#Triples_of_r是关系三元组中关于关系r的三元组数量,#Head_Entities_of_r和#Tail_Entities_of_r分别是关系r的三元组涉及的头实体数量和尾实体数量;
1.2)图卷积网络中实体向量计算:图卷积网络的输入为实体结构特征矩阵由随机初始化得到,n表示总实体数量,ds表示实体结构特征向量维度;结构图的图卷积网络总体的计算公式为:
其中是在邻接矩阵A的基础上加上等维度的单位矩阵,增加当前实体自身的信息,是的对角节点度矩阵;权重矩阵Ws(0)和Ws(1)都是对角矩阵,激活函数σ采用ReLU(·)=max(0,·);
1.3)损失函数:对于实体对p=(e1,e2)∈S的距离作为正例实体对距离,通过随机替换实体e1或e2构造负例实体对p′=(e′1,e′2)∈Sp′,Sp′为负例实体对集合,然后最小化下列目标函数:
其中fs(p)=||hs(e1),hs(e2)||1是实体距离打分函数,计算实体结构向量之间的曼哈顿距离,hs(e1),hs(e2)分别表示实体e1,e2的结构向量;γs是结构向量之间的间隔约束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010512003.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:对SIM卡初始化的优化
- 下一篇:一种参数可调整的服装工艺模块化设计方法