[发明专利]一种基于随机游走关系发现的优化方法在审
申请号: | 201810012483.5 | 申请日: | 2018-01-05 |
公开(公告)号: | CN108287881A | 公开(公告)日: | 2018-07-17 |
发明(设计)人: | 孙新;徐晶;严西敏 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N5/02 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 王民盛 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 随机游走 图谱 发现 时间和空间复杂度 预处理 知识库 优化 广度优先搜索 随机游走算法 算法预处理 存储空间 传统的 节点数 算法 消耗 保证 | ||
本发明公开了一种基于随机游走关系发现的优化方法,属于知识图谱技术领域。涉及知识图谱中关系发现问题,基于随机游走的关系发现算法提出了一种限定半径下的随机游走的优化方法:针对大规模的知识库,知识图谱节点数的量级会随之过大,本发明结合广度优先搜索获取限定半径下的局部子图,采用获取的局部子图而非全图来加快预处理时要消耗的大量时间和存储空间。与传统的随机游走算法相比,在局部子图下进行随机游走,能够大大降低算法预处理的时间和空间复杂度的量级,在保证关系发现的准确性的基础上缩短了随机游走的时间。
技术领域
本发明涉及一种基于随机游走关系发现的优化方法,属于知识图谱(KnowledgeGraph)技术领域。
背景技术
知识图谱中的关系发现又称关系推理,是指从知识库中已经存在的关系出发,经过计算机算法和程序,找出潜在的关系,从而进一步扩展知识图谱。关系发现在知识图谱的创建与扩展的过程中十分重要。目前知识图谱中的关系发现主要有两种方法:基于逻辑的推理方法和基于图的推理方法。
基于逻辑的关系推理主要包含一阶谓词逻辑、描述逻辑以及基于规则的推理。其中一阶谓词逻辑是建立在命题的基础上。在一阶谓词逻辑的概念中,命题被分为个体和谓词两个部分。其中个体是指独立存在的事物或者概念,谓词是刻画个体关系的词。使用一阶谓词逻辑可以进行简单的关系推理,如人际关系的推理;对于复杂的关系,可以使用描述逻辑进行推理。其中描述逻辑是一种基于对象的知识表示的工具。一般来说,基于描述逻辑的知识库一般包括TBox和ABox。TBox用来描述概念、关系的公理集合,而ABox用来描述事实的公理集合。基于规则的推理一般借助于OWL语言和SWRL语言进行。OWL和SWRL语言均提供了强大的知识描述能力。
基于图的关系推理方法主要基于神经网络模型和Path Ranking算法。PathRanking算法的基本思想是将知识图谱看作为一张图(实体为节点,关系为边),在图上进行随机游走从而发现可能存在的关系。例如存在路径关系(X,Parentof,Z)和(Y,Parentof,Z),使用PathRanking算法就可推断出X,Y之间有着MarriedTo关系。
基于神经网络的算法特别是基于深度学习的关系发现算法也在逐渐进行。Socher等人将知识库中的实体表述为向量的形式,继而使用神经张量算法进行预测。TransE、TransH、TranSparse等文章也探讨了将关系转为向量继而发现关系的可行性。
但是这些算法大部分都是在非垂直数据库中进行使用,如WordNet、FreeBase等。非垂直化数据库由于数据来源于各行各业,较垂直化的数据库相比,其种类明显较多。对于垂直领域数据库,其实体的种类其实不多。对于这种垂直领域数据库的知识图谱,可以使用随机游走重启算法进行亲和度较高且不相邻的节点发现,继而根据节点的种类确下文将介绍使用随机游走重启算法进行亲和度较高且不相邻的节点发现,继而根据节点的种类确定潜在关系的种类。
随机游走重启算法(Random Walk with Restart,RWR),也被称为PersonalizedPage Rank,最初是作为一个图像分割方法提出。随机游走的主要思想是利用一个游标,从起始点出发,在之后的每一个点时选择移动到与此节点相邻的节点或返回起始点。所有节点对起始点的亲和度在每次随机游走时可以通过一个迭代公式表示,且是可以收敛的。收敛结果为从起始节点到达图中任意一个可达顶点的概率分布,可以使用此概率分布对其他节点对起始节点的亲和度评分。但是收敛结果的计算中需要计算知识图谱的节点数阶数的方阵的逆矩阵,如果知识库很大的话,这个过程中会带来量级过大的时间复杂度和空间复杂度。虽然有Lin等人提出了B_LIN和NB_LIN算法来降低计算时的空间和时间复杂度,但与传统的随机游走算法相比还是处于同一个数量级。如何在传统的随机游走算法上改进,加快预处理时要消耗的大量时间和存储空间,加速关系发现过程是我们本发明研究的关键。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810012483.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网页语言国际化的方法及装置
- 下一篇:用于差异媒体分布的系统和方法