[发明专利]基于子图划分的知识图谱降维表达方法在审
申请号: | 201711221533.2 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107766583A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 何兆成;卢昱寰;陈一贤 | 申请(专利权)人: | 中山大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 林丽明 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 划分 知识 图谱 表达 方法 | ||
技术领域
本发明涉及知识图谱技术领域,更具体地,涉及一种基于子图划分的知识图谱降维表达方法。
背景技术
知识图谱是一种基于图的数据结构,由实体和关系组成。它的本质是把不同种类的信息连接在一起而得到一个关系网络,从而提供了以“关系”为主体的问题分析方式。知识图谱的概念最早是由美国谷歌公司提出,主要应用于搜索引擎的优化。如今,其在电信反欺诈、论文抄袭检测、互联网金融和生命科学等领域都得到了广泛应用。
知识图谱在应用的过程中,需要解决两方面的问题:其一是缺失数据的填补;其二是关系抽取以及实体分类。解决上述两个问题的基础是对图谱进行降维表达,通过量化图谱中的实体和关系,将高维复杂的知识图谱映射到低维子空间,使实体和关系变为可计算的向量,方便对图谱进行填补、分析和挖掘。
目前主流的知识图谱降维表达方法,一般是对图谱中的全部实体和关系进行训练,通过优化三元组评价函数来得到每一个实体和关系的向量表达。然而,这类方法的训练效率较低,不适用于具有大规模实体的知识图谱,且忽视了图谱的局部特征,导致训练得到的向量并不能准确表达实体和关系本身所蕴含的信息。
发明内容
本发明为解决以上现有技术由于忽略图谱的局部特征而导致的不能准确表达实体和关系本身所蕴含的信息的技术缺陷,提供了一种基于子图划分的知识图谱降维表达方法。
为实现以上发明目的,采用的技术方案是:
基于子图划分的知识图谱降维表达方法,对知识图谱进行子图的划分;对划分的子图进行CP张量分解,得到实体编码向量和关系编码向量作为降维表达的结果输出。
优选地,所述方法对知识图谱进行子图划分的过程如下:
S11.人工对知识图谱中的实体进行标记,将不同的实体分别标记为核心对象实体和次要对象实体;
S12.将标记的所有的核心对象实体压入栈K中
S13.从栈K中取出一个核心对象实体作为遍历起点进行遍历:
(1)输入遍历的起点,核心对象实体
(2)以核心对象实体为起点进行深度为1的广度优先遍历,并将遍历得到的实体全部加入子图GS中;
(3)判断遍历得到的实体中是否包含有核心对象实体,若是则将遍历得到的核心对象实体压入栈S中,从栈S中取出一个核心对象实体,然后以取出的核心对象实体为起点执行步骤(2);否则判断栈S中的实体数量是否为0,若栈S中的实体数量是为0,则结束遍历,输出子图GS,然后将遍历得到的核心对象实体从栈K中除去;若栈S中的实体数量不为0,则从栈S中取出一个核心对象实体,然后以取出的核心对象实体为起点执行步骤(2);
S14.判断栈K中实体数量是否为0,若是则结束子图划分,否则从栈K中取出一个核心对象实体作为遍历起点按照步骤S13的方式进行遍历。
优选地,所述对子图进行CP张量分解的具体过程如下:
S21.输入子图GS,子图GS包含n个实体和m条关系;
S22.基于子图GS构建三阶张量
S23.对张量x进行CP分解:
其中d表示知识图谱中实体的类型数,表示向量的外积,A,B,C表示三个因子矩阵,其中A和B表示实体的特征矩阵,C表示关系的特征矩阵;
S24.构造并计算目标函数:判断目标函数δ的数值是否为最小,若是则输出A,B,C三个矩阵的最优解,否则对三个矩阵进行更新:
A←A+α(x*δ)(1)(C⊙B)(3)
B←B+α(χ*δ)(2)(C⊙A)(4)
C←C+α(X*δ)(3)(B⊙A)(5)
然后基于更新的A,B,C三个矩阵执行步骤S24。
与现有技术相比,本发明的有益效果是:
1)基于子图划分的知识图谱降维表达方法对实体的编码相比传统方法更为合理,以子图为基础的降维表达能充分考虑知识图谱的局部特征,得到的实体编码向量能更好地反映实体的本质特征。
2)基于子图划分的知识图谱降维表达方法在运算性能上相比传统方法有显著的提升,且随着图谱实体数量呈指数级增长,该算法总运行时间的增长速度保持平稳,适用于具有大规模实体的知识图谱。
附图说明
图1为本发明提供的方法的流程示意图。
图2为实体标记的示意图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711221533.2/2.html,转载请声明来源钻瓜专利网。