[发明专利]一种强适应性的知识库补全方法有效
申请号: | 201710630354.8 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107491500B | 公开(公告)日: | 2020-01-10 |
发明(设计)人: | 孟小峰;张祎;王秋月 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 11245 北京纪凯知识产权代理有限公司 | 代理人: | 徐宁;孙楠 |
地址: | 100872 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 适应性 知识库 方法 | ||
1.一种强适应性的知识库补全方法,其特征在于包括以下步骤:
1)从知识库调取数据源,进行局部子图遍历,为特征提取器提取路径提供信息;
2)设置路径特征提取器,该路径特征提取器包括类PRA特征提取器、路径二元特征提取器、修正后的单侧特征提取器、双侧对比特征提取器和关系泛化特征提取器;所有路径特征提取器的提取过程都相同,均包括路径特征提取和路径特征选择,输入为局部子图,输出为路径特征;
3)根据路径特征提取器构建特征矩阵;
4)选取分类模型,将特征矩阵传输至分类模型中,并训练分类模型,然后由分类模型输出成立的实体对以及实体对对应的关系类型,并将输出结果传输至知识库中,从而实现对知识库的补全。
2.如权利要求1所述的一种强适应性的知识库补全方法,其特征在于:所述步骤1)中,局部子图是指通过宽度优先遍历的方法搜索结点e在s步范围内的所有结点;最后得到以对应结点为中心的遍历结果,即局部子图Ge。
3.如权利要求1所述的一种强适应性的知识库补全方法,其特征在于:所述步骤2)中,路径特征提取过程为:
按照宽度优先方式进行路径特征提取:假设存在头实体si的局部子图和尾实体ti的局部子图以及中间结点ei;如果则提取的路径特征为如果ei=ti,则抽取的路径特征为如果ei=si,则抽取的路径特征为
4.如权利要求3所述的一种强适应性的知识库补全方法,其特征在于:如果遍历遇到了高出度结点,就停止遍历;高出度结点是出度高于预先设定出度阈值的结点。
5.如权利要求3或4所述的一种强适应性的知识库补全方法,其特征在于:遍历过程中以关系标签为单位进行类分层抽样的宽度优先遍历。
6.如权利要求1所述的一种强适应性的知识库补全方法,其特征在于:所述步骤2)中,路径特征选择是依据出现频率对路径特征进行选择。
7.如权利要求1所述的一种强适应性的知识库补全方法,其特征在于:所述步骤3)中,特征矩阵构建过程为:
3.1)将不同特征提取器提取的路径特征取并集,作为特征矩阵的列;
3.2)同时,将实体对作为特征矩阵的行;
3.3)求出特征矩阵中的每个单元的概率值,即P(ti|si,π),该概率值表示从头实体si出发经过路径特征π到达尾实体ti的概率。
8.如权利要求7所述的一种强适应性的知识库补全方法,其特征在于:所述步骤3.3)中,概率值的计算过程是采用从头实体si出发的随机游走遍历,如果概率值大于0,则特征矩阵中的值为1;否则为0。
9.如权利要求1所述的一种强适应性的知识库补全方法,其特征在于:所述步骤4)中,分类模型选取逻辑回归模型或支持向量机模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710630354.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于非结构化数据的舆情预警方法
- 下一篇:一种分组推送的方法及装置