[发明专利]一种强适应性的知识库补全方法有效
申请号: | 201710630354.8 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107491500B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 孟小峰;张祎;王秋月 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 11245 北京纪凯知识产权代理有限公司 | 代理人: | 徐宁;孙楠 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适应性 知识库 方法 | ||
本发明涉及一种强适应性的知识库补全方法,其步骤:从知识库调取数据源,进行局部子图遍历;设置路径特征提取器,该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器;所有路径特征提取器的提取过程都相同,均包括路径特征提取和路径特征选择,输入为局部子图,输出为路径特征;根据特征提取器构建特征矩阵;选取分类模型,将特征矩阵传输至分类模型中,并训练分类模型,然后由分类模型输出成立的实体对以及实体对对应的关系类型,并将输出结果传输至知识库中,从而实现对知识库的补全。本发明性能具有相对稳定性,即可以在不同数据集上取得相对较好的知识库补全效果。
技术领域
本发明涉及一种知识库补全方法,特别是关于一种在计算机领域中应用的强适应性的知识库补全方法。
背景技术
目前,YOGO、NELL、Freebase和DBPedia等大型知识库层出不穷。学者们基于这些知识库,进行了大量关系抽取、关系推断、自然语言问答和知识发现等工作,在很大程度上推动了对应领域的发展。不过,即使是规模庞大的当代知识库,也存在严重的信息不完善问题。职业信息属于人的基本信息,但是,在Freebase所包含的200万人类主体中,只有30万有这方面的信息,且大多数都是政治家或明星等。这些基本信息的匮乏,会极大阻碍人们对知识库的进一步利用。知识库补全技术应运而生。“知识库补全技术”的优势在于可以发现已存在但未知的知识。随着大数据时代的到来,隐藏在“数据洪流”之中的知识越来越多,这种知识发现技术也愈加引起各行各业的关注。
现有的知识库补全技术主要包括三大类,即基于隐性特征向量表示的embedding方法、基于知识图谱拓扑结构的知识库补全,以及马尔科夫随机场。这三种方法通过利用知识库或全局或局部的信息,实现知识库补全。
归纳逻辑编程(Inductive Logic Programming,ILP)通过一阶逻辑谓词之间的推理进行链接预测相关工作,但在表达能力、鲁棒性和可扩展性三个方面具有一定局限。NiLao的PRA(Path Ranking Algorithm)算法通过随机游走实现了对所有路径的简单抽样,在一定程度上降低了时间复杂度,增强了模型的可扩展性。同时,其对规则可靠性的度量,提高了模型的表达能力和鲁棒性。Matt Gardner在PRA的基础上提出“局部子图”的概念,并通过“局部子图”提取知识图谱中的路径特征;将特征矩阵“0,1”化;同时使用修正后的宽度优先遍历取代PRA中的随机游走算法;而且融合了“关系泛化特征”提取器,最终构建了知识库补全的SFE(Subgraph Feature Extraction)模型,将PRA知识库补全的MAP值从0.432提高到0.528,而且训练时间少了一个数量级。
虽然SFE在PRA基础上进行了很大改善,但依旧存在以下不足:(1)提出单个特征提取器时,考虑的因素有限,可能会出现过拟合现象;(2)在最终确定SFE算法之前没有就单个特征提取器的优劣进行评测,导致最终的SFE算法并非最优;(3)忽略了知识库补全模型对数据集的高度依赖性。而这种依赖性不仅会影响同一模型在不同数据集上的表现效果,还会影响不同模型在不同数据集上的相对优劣。
发明内容
针对上述问题,本发明的目的是提供一种强适应性的知识库补全方法,其性能具有相对稳定性,即可以在不同数据集上取得相对较好的知识库补全效果。
为实现上述目的,本发明采取以下技术方案:一种强适应性的知识库补全方法,其特征在于包括以下步骤:1)从知识库调取数据源,进行局部子图遍历,为特征提取器提取路径提供信息;2)设置路径特征提取器,该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器;所有路径特征提取器的提取过程都相同,均包括路径特征提取和路径特征选择,输入为局部子图,输出为路径特征;3)根据特征提取器构建特征矩阵;4)选取分类模型,将特征矩阵传输至分类模型中,并训练分类模型,然后由分类模型输出成立的实体对以及实体对对应的关系类型,并将输出结果传输至知识库中,从而实现对知识库的补全。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710630354.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于非结构化数据的舆情预警方法
- 下一篇:一种分组推送的方法及装置