[发明专利]一种基于知识图谱邻域结构的图谱完备化方法有效
申请号: | 201910271576.4 | 申请日: | 2019-04-04 |
公开(公告)号: | CN109992670B | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 杜友田;李雪莲;曹富媛;王雪 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 西安智大知识产权代理事务所 61215 | 代理人: | 段俊涛 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 邻域 结构 完备化 方法 | ||
针对知识图谱存在的三元组缺失问题,本发明提出一种基于邻域结构的知识图谱完备化技术。该技术基于知识图谱的实体邻域、关系邻域、实体与关系之间的对应关系等信息,对知识图谱的关系要素和实体要素进行建模。主要步骤为:①基于图谱中实体的邻域结构,建立模型将实体要素映射到实体向量空间内;②基于图谱中关系要素的邻域结构,建立模型将关系映射到关系向量空间内;③采用关系映射矩阵将实体表示映射到对应的关系空间内,建立三元组关联模型。为了更有效地训练模型,本发明提出基于邻域结构的负样本采样算法,对实体和关系进行联合训练,基于训练结果对未知三元组进行预测。本发明的贡献在于提出一种基于邻域结构的知识图谱完备化的有效技术。
技术领域
本发明属于知识图谱表示与推理技术领域,特别涉及一种基于知识图谱邻域结构的图谱完备化方法。
背景技术
随着互联网的快速普及,互联网上的内容出现多元化以及组织结构松散的问题,导致人们无法有效快速地获取信息和知识。2012年Google提出知识图谱,为互联网时代知识化打开了新的局面。如今知识图谱技术已经被作为关键技术之一,在智能问答和个性化推荐等领域被大量使用。
知识图谱完备化技术是针对现有知识图谱仍存在大量的三元组缺失的问题提出的。已有研究方法主要包括以下3类:1)基于图谱向量的方法,2)基于图结构的方法,3)基于深度学习的方法。基于图谱向量的代表模型为TransE/TransR/TransD系列模型。TransE模型首次提出将三元组中的关系作为对应的头实体到尾实体之间的翻译,从而将实体和关系映射至低维向量空间内进行表示;同一个实体面对不同关系的时候可能具有不同的方面语义,TransR模型通过特定的关系矩阵对将实体映射到对应的不同关系向量空间内,使其具有多类向量表示;TransD模型在TransR模型的基础上,考虑到关系也会具有不同的方面语义,因此采用头尾实体向量点积相乘的方式构造关系的动态映射矩阵,使得关系对应不同的实体也能构建出不同的映射矩阵。
基于图结构的图谱补齐模型包括GAKE模型和R-GCN模型等。前者是将知识图谱中的实体和关系都视为同等地位的图结点,定义了三类不同的邻域搜索办法寻找这些图结点的相邻结点,基于这些相邻结点集合建立概率模型;后者利用知识图谱里的邻域结点的信息改进传统的GCN网络,得到能够对知识三元组数据进行建模的新型网络模型。
基于深度学习的图谱补齐模型的典型代表为ConvE模型,该模型采用卷积神经网络模型对非线性特征进行学习,进而对图谱中的结点信息,如实体和关系等进行建模。ConvE模型采用权值共享技术减少了需要学习的权值个数,在知识图谱领域内得到了良好的结果。
在上述的几类模型中,基于图谱向量的模型主要针对知识图谱的三元组进行独立建模,忽略了三元组之间的相互联系以及知识图谱本身的整体结构;基于图结构的模型通常将实体和关系视为地位相同的图结点,忽略了实体和关系无论是语法地位还是自然属性都是截然不同的两类元素,并且无法有效地利用实体和关系各自不同的邻域信息;基于深度学习的模型具有模型计算复杂度高及可解释性差等不足。
发明内容
为了克服上述现有技术大规模图谱存在的大量三元组缺失等缺点,本发明的目的在于提供一种基于知识图谱邻域结构的图谱完备化方法,针对知识图谱中大规模的三元组关联数据,结合图谱中的实体邻域信息、关系邻域信息以及低维向量空间内的位置关系信息,基于大规模知识图谱邻域进行建模,来对知识图谱领域内已有的知识图谱进行三元组完备化。
为了实现上述目的,本发明采用的技术方案是:
一种基于知识图谱邻域结构的图谱完备化方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910271576.4/2.html,转载请声明来源钻瓜专利网。