[发明专利]面向知识图谱构建的细粒度中文属性对齐方法有效
申请号: | 201710077245.8 | 申请日: | 2017-02-14 |
公开(公告)号: | CN106897403B | 公开(公告)日: | 2019-03-26 |
发明(设计)人: | 付琨;许光銮;梁霄;孙显;李峰;孙鸿志;王楠 | 申请(专利权)人: | 中国科学院电子学研究所 |
主分类号: | G06F16/25 | 分类号: | G06F16/25 |
代理公司: | 北京安博达知识产权代理有限公司 11271 | 代理人: | 徐国文 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。 | ||
搜索关键词: | 面向 知识 图谱 构建 细粒度 中文 属性 对齐 方法 | ||
【主权项】:
1.一种面向知识图谱构建的细粒度中文属性对齐方法,其特征在于,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果;所述的步骤B包括:步骤B1:确定属性值的数据类型,任意属性值l可看作由n个原子文本ai拼接而成,其中n≥1,1≤i≤n,i,n均为正整数,任意属性值l的数据类型通常与其中一个或几个关键的原子文本的类型保持一致,使用如下启发式准则判断属性值l的数据类型:
其中I是指示函数,
时为1,否则为0;gL为求文本长度的函数,U为数据类型的集合;步骤B2:确定属性的数据类型,采用下式,对属性p的所有属性值的数据类型进行统计,即计算每个类型出现次数占其属性值总数的比例,假定比例低于阈值θ的类型为噪声导致的错误,
其中,Ep表示属性p的扩展中所有实体构成的集合,le,p表示给定实体e和属性p时对应的属性值,
代表属性值le,p的数据类型。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所,未经中国科学院电子学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710077245.8/,转载请声明来源钻瓜专利网。