[发明专利]一种强适应性的知识库补全方法有效

专利信息
申请号: 201710630354.8 申请日: 2017-07-28
公开(公告)号: CN107491500B 公开(公告)日: 2020-01-10
发明(设计)人: 孟小峰;张祎;王秋月 申请(专利权)人: 中国人民大学
主分类号: G06F16/36 分类号: G06F16/36
代理公司: 11245 北京纪凯知识产权代理有限公司 代理人: 徐宁;孙楠
地址: 100872 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 适应性 知识库 方法
【说明书】:

发明涉及一种强适应性的知识库补全方法,其步骤:从知识库调取数据源,进行局部子图遍历;设置路径特征提取器,该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器;所有路径特征提取器的提取过程都相同,均包括路径特征提取和路径特征选择,输入为局部子图,输出为路径特征;根据特征提取器构建特征矩阵;选取分类模型,将特征矩阵传输至分类模型中,并训练分类模型,然后由分类模型输出成立的实体对以及实体对对应的关系类型,并将输出结果传输至知识库中,从而实现对知识库的补全。本发明性能具有相对稳定性,即可以在不同数据集上取得相对较好的知识库补全效果。

技术领域

本发明涉及一种知识库补全方法,特别是关于一种在计算机领域中应用的强适应性的知识库补全方法。

背景技术

目前,YOGO、NELL、Freebase和DBPedia等大型知识库层出不穷。学者们基于这些知识库,进行了大量关系抽取、关系推断、自然语言问答和知识发现等工作,在很大程度上推动了对应领域的发展。不过,即使是规模庞大的当代知识库,也存在严重的信息不完善问题。职业信息属于人的基本信息,但是,在Freebase所包含的200万人类主体中,只有30万有这方面的信息,且大多数都是政治家或明星等。这些基本信息的匮乏,会极大阻碍人们对知识库的进一步利用。知识库补全技术应运而生。“知识库补全技术”的优势在于可以发现已存在但未知的知识。随着大数据时代的到来,隐藏在“数据洪流”之中的知识越来越多,这种知识发现技术也愈加引起各行各业的关注。

现有的知识库补全技术主要包括三大类,即基于隐性特征向量表示的embedding方法、基于知识图谱拓扑结构的知识库补全,以及马尔科夫随机场。这三种方法通过利用知识库或全局或局部的信息,实现知识库补全。

归纳逻辑编程(Inductive Logic Programming,ILP)通过一阶逻辑谓词之间的推理进行链接预测相关工作,但在表达能力、鲁棒性和可扩展性三个方面具有一定局限。NiLao的PRA(Path Ranking Algorithm)算法通过随机游走实现了对所有路径的简单抽样,在一定程度上降低了时间复杂度,增强了模型的可扩展性。同时,其对规则可靠性的度量,提高了模型的表达能力和鲁棒性。Matt Gardner在PRA的基础上提出“局部子图”的概念,并通过“局部子图”提取知识图谱中的路径特征;将特征矩阵“0,1”化;同时使用修正后的宽度优先遍历取代PRA中的随机游走算法;而且融合了“关系泛化特征”提取器,最终构建了知识库补全的SFE(Subgraph Feature Extraction)模型,将PRA知识库补全的MAP值从0.432提高到0.528,而且训练时间少了一个数量级。

虽然SFE在PRA基础上进行了很大改善,但依旧存在以下不足:(1)提出单个特征提取器时,考虑的因素有限,可能会出现过拟合现象;(2)在最终确定SFE算法之前没有就单个特征提取器的优劣进行评测,导致最终的SFE算法并非最优;(3)忽略了知识库补全模型对数据集的高度依赖性。而这种依赖性不仅会影响同一模型在不同数据集上的表现效果,还会影响不同模型在不同数据集上的相对优劣。

发明内容

针对上述问题,本发明的目的是提供一种强适应性的知识库补全方法,其性能具有相对稳定性,即可以在不同数据集上取得相对较好的知识库补全效果。

为实现上述目的,本发明采取以下技术方案:一种强适应性的知识库补全方法,其特征在于包括以下步骤:1)从知识库调取数据源,进行局部子图遍历,为特征提取器提取路径提供信息;2)设置路径特征提取器,该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器;所有路径特征提取器的提取过程都相同,均包括路径特征提取和路径特征选择,输入为局部子图,输出为路径特征;3)根据特征提取器构建特征矩阵;4)选取分类模型,将特征矩阵传输至分类模型中,并训练分类模型,然后由分类模型输出成立的实体对以及实体对对应的关系类型,并将输出结果传输至知识库中,从而实现对知识库的补全。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710630354.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top