[发明专利]面向知识图谱构建的细粒度中文属性对齐方法有效

专利信息
申请号: 201710077245.8 申请日: 2017-02-14
公开(公告)号: CN106897403B 公开(公告)日: 2019-03-26
发明(设计)人: 付琨;许光銮;梁霄;孙显;李峰;孙鸿志;王楠 申请(专利权)人: 中国科学院电子学研究所
主分类号: G06F16/25 分类号: G06F16/25
代理公司: 北京安博达知识产权代理有限公司 11271 代理人: 徐国文
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 知识 图谱 构建 细粒度 中文 属性 对齐 方法
【说明书】:

一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。

技术领域

发明涉及数据处理领域,特别涉及一种面向知识图谱构建的细粒度中文属性对齐方法。

背景技术

关联开放数据LOD(Linking Open Data)项目的出现,促进了大规模语义数据的发布与互联。属性对齐是语义数据集成的一个基础任务,旨在识别来自单一或多个数据源的属性之间存在的对应关系,例如,识别“生日”和“出生日期”之间的同义关系。属性对齐的结果可作为实体对齐及本体构建的基础,因此,在跨数据源的高质量知识图谱的构建中起到重要作用。此外,完善的属性对应关系也有利于提高语义检索、问答系统的召回率。

属性对齐工作主要使用数据驱动的方法,其一般思路是,基于属性的扩展(extension)计算属性相似度,并设定相似度阈值来划分属性间的关系。例如,利用LOD数据集间的owl:sameAs信息确定扩展中的相同实体,通过计算匹配数与共现数的比例确定同义属性,但该方法仅能处理对象属性(object property)。一些改进方法利用属性值的相似度代替完全匹配,因此可识别同义的值属性(datatype property)。例如,通过无监督的方式确定阈值,并使用聚类法获取单一LOD数据集内部的同义属性簇。此外,也有工作对属性间的包含关系进行分析。例如,PARIS方法则在统一的对齐框架内实现了子属性(subproperty)的识别。

上述方法主要面向LOD数据集,例如DBpedia,YAGO,Freebase等。相比较而言,包括中文百科、垂直网站等在内的中文开源数据集大多未经整理,语义信息不完整,已有方法可能因缺乏必要信息而难以发挥优势;且中文表意的灵活性使得属性间的关系更复杂,而已有属性对齐工作通常着眼于发现某种特定关系。

发明内容

鉴于现有方案存在的问题,为了克服上述现有技术方案的不足,本发明提出了一种面向知识图谱构建的细粒度中文属性对齐方法。

根据本发明的一个方面,提供了一种面向知识图谱构建的细粒度中文属性对齐方法,包括:步骤A,针对每一数据集的各个属性分别生成属性的扩展;步骤B,针对每个属性的扩展,考虑该属性的所有属性值类型的统计特性,从而确定该属性的数据类型;步骤C,基于属性的数据类型,定义属性值的相似度,实现属性间的相似度计算;步骤D,根据细粒度属性对齐的需要,针对任意两不同数据集要判别的属性对关系,基于属性间的相似度生成特征;步骤E,将所述特征输入训练好的分类器,输出分类结果。

从上述技术方案可以看出,本发明具有以下有益效果:

提出基于监督学习的细粒度属性对齐方法,将属性关系的识别建模为多分类问题;

在确定属性类型方面,利用统计理论降低了小概率噪声干扰,因而鲁棒性强,在现有不规范数据集上可达到90%以上的准确率,克服了中文数据集规范性差,语义信息不完整的难题。

与传统对齐方法相比,不仅提高了同义属性识别的准确性,而且可有效发现包含、相关等关系,因而更适用于数据表达灵活、属性关系复杂的开源中文数据集。

附图说明

图1是本发明实施例中实现基于监督学习的细粒度中文属性对齐方法的操作示意图;

图2本发明实施例中基于监督学习的细粒度中文属性对齐方法的流程示意图;

图3为最佳匹配集确定示例图;

具体实施方式

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院电子学研究所,未经中国科学院电子学研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201710077245.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top