[发明专利]一种基于局部敏感哈希策略的实例匹配方法有效

专利信息
申请号: 201510307301.3 申请日: 2015-06-05
公开(公告)号: CN104866471B 公开(公告)日: 2017-09-19
发明(设计)人: 张海威;石彬;李仲伟;解晓芳;袁晓洁 申请(专利权)人: 南开大学
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 天津佳盟知识产权代理有限公司12002 代理人: 侯力
地址: 300071*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 局部 敏感 策略 实例 匹配 方法
【说明书】:

【技术领域】

发明属于语义网的数据融合技术领域。

【背景技术】

随着互联网的快速发展,大数据时代已经到来。这些数据一般都来自不同的领域,例如公司、学校、政府、医院等等。但是到目前为止,这些数据大多分散在各处,并没有一个统一的标准来组织这些数据,而语义网的提出则为数据的集成应用打开了新的通路。

语义网(Semantic Web),是由World Wide Web(W3C)组织发起的一个运动,旨在把当前的面向文档的网络演变为面向数据的网络(web of data),这一概念最早是由互联网创始人Tim Berners-Lee在1998年提出的,目标是通过给万维网上的文档添加能够被计算机所理解的语义,使得整个互联网成为一个通用的信息交换平台。2001年Scientific American杂志出版了由Tim Berners-Lee等的一篇文章,描绘了把现存互联网转化为语义网的愿景。2006年,对语义网这一伟大设想的实现仍在探索中。2007年一个名为Linking Open Data(LOD)的项目吸引了很多的注意力,它是以主语、谓语、宾语三元组的方式来组织数据,一个实例由多个三元组进行描述,如《算法导论》这本书就是一个实例,关于它的描述例如“《算法导论》属于计算机类型”、“《算法导论》的价格是70元”,这里《算法导论》是主语,“属于”和“价格”是谓语,“计算机类型”和“70元”是宾语。目前已经有很多数据集开始发布在它上面,其中一项重要的任务就是建立数据集之间的owl:sameAs连接。

目前为止,已经有许多的方法来解决这个问题。这些方案中大多数都关注于如何准确并全面的检测出匹配的实例。但是用于实例匹配的算法很多不得不对每对实例都进行匹配,所以它并不适用于大数据集。一些成熟的系统,例如Silk和LIMES,都通过使用用户提前定义好的匹配规则来实现目标,这不适用于对数据集不太熟悉的用户。而另一些系统,例如RiMOM2013和SLINT+,试图在没有用户参与的条件下实现目标,目前有两种方法可以在没有用户参与的情况下实现匹配:一种是通过半监督学习的算法来迭代优化匹配规则,并根据规则找出置信度高的匹配对;另一种是通过非监督学习的算法来找到候选实例对,以此来减少匹配的数量;这些算法在小规模数据集上表现较佳,但并不能扩展到大规模数据集。

【发明内容】

本发明提出了一种基于局部敏感哈希策略的实例匹配方法,解决语义网中快速提取两个数据集间描述相同事物实例的难题。Linked Data是语义网的一个具体实现,以RDF三元组作为基础数据模型。RDF三元组是由主语、谓语、宾语组成的描述事物特征的框架,数据集中的实例由多个RDF三元组组成。LinkedData中包括大量的数据集,而且任何人都能在其上发布新的数据集,但新发布的数据集需要与现存数据集存在链接数据,即把描述相同事物的实例标记出来。

本发明针对现有数据集规模较大、来源广泛、语义异构的特点,设计了基于局部敏感哈希策略的实例匹配方法,充分利用实例的谓语和宾语对该实例的辨别性,设计并实现了基于局部敏感哈希策略进行实例匹配的方法。

本发明提供的基于局部敏感哈希策略的实例匹配方法详细步骤包括:

第1、根据谓语的覆盖率和辨别率找到重要谓语

重要的谓语一般具有两个特征:一是该谓语应该覆盖大多数的实例;二是该谓语的宾语应该存储了每个实例的特殊信息,从而能够区分不同的实例。所以,我们使用覆盖率和辨别率作为指标来评估谓语的重要性水平。

第1.1、谓语的覆盖率

谓语的覆盖率是指谓语在整个数据集所有实例中出现的频率,如90%的实例都有一个谓语rdfs:label来表示实例的名字,那么rdfs:label这个谓语的覆盖率就是90%。

计算方法:

计算谓语pk覆盖率Cov(pk)的方法如公式(1)所示。符号<s,pk,o>代表RDF三元组的主语、谓语和宾语。x,t和D分别代表实例、三元组和数据集。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510307301.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top