[发明专利]一种基于局部敏感哈希策略的实例匹配方法有效
申请号: | 201510307301.3 | 申请日: | 2015-06-05 |
公开(公告)号: | CN104866471B | 公开(公告)日: | 2017-09-19 |
发明(设计)人: | 张海威;石彬;李仲伟;解晓芳;袁晓洁 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06F17/30 |
代理公司: | 天津佳盟知识产权代理有限公司12002 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 局部 敏感 策略 实例 匹配 方法 | ||
【技术领域】
本发明属于语义网的数据融合技术领域。
【背景技术】
随着互联网的快速发展,大数据时代已经到来。这些数据一般都来自不同的领域,例如公司、学校、政府、医院等等。但是到目前为止,这些数据大多分散在各处,并没有一个统一的标准来组织这些数据,而语义网的提出则为数据的集成应用打开了新的通路。
语义网(Semantic Web),是由World Wide Web(W3C)组织发起的一个运动,旨在把当前的面向文档的网络演变为面向数据的网络(web of data),这一概念最早是由互联网创始人Tim Berners-Lee在1998年提出的,目标是通过给万维网上的文档添加能够被计算机所理解的语义,使得整个互联网成为一个通用的信息交换平台。2001年Scientific American杂志出版了由Tim Berners-Lee等的一篇文章,描绘了把现存互联网转化为语义网的愿景。2006年,对语义网这一伟大设想的实现仍在探索中。2007年一个名为Linking Open Data(LOD)的项目吸引了很多的注意力,它是以主语、谓语、宾语三元组的方式来组织数据,一个实例由多个三元组进行描述,如《算法导论》这本书就是一个实例,关于它的描述例如“《算法导论》属于计算机类型”、“《算法导论》的价格是70元”,这里《算法导论》是主语,“属于”和“价格”是谓语,“计算机类型”和“70元”是宾语。目前已经有很多数据集开始发布在它上面,其中一项重要的任务就是建立数据集之间的owl:sameAs连接。
目前为止,已经有许多的方法来解决这个问题。这些方案中大多数都关注于如何准确并全面的检测出匹配的实例。但是用于实例匹配的算法很多不得不对每对实例都进行匹配,所以它并不适用于大数据集。一些成熟的系统,例如Silk和LIMES,都通过使用用户提前定义好的匹配规则来实现目标,这不适用于对数据集不太熟悉的用户。而另一些系统,例如RiMOM2013和SLINT+,试图在没有用户参与的条件下实现目标,目前有两种方法可以在没有用户参与的情况下实现匹配:一种是通过半监督学习的算法来迭代优化匹配规则,并根据规则找出置信度高的匹配对;另一种是通过非监督学习的算法来找到候选实例对,以此来减少匹配的数量;这些算法在小规模数据集上表现较佳,但并不能扩展到大规模数据集。
【发明内容】
本发明提出了一种基于局部敏感哈希策略的实例匹配方法,解决语义网中快速提取两个数据集间描述相同事物实例的难题。Linked Data是语义网的一个具体实现,以RDF三元组作为基础数据模型。RDF三元组是由主语、谓语、宾语组成的描述事物特征的框架,数据集中的实例由多个RDF三元组组成。LinkedData中包括大量的数据集,而且任何人都能在其上发布新的数据集,但新发布的数据集需要与现存数据集存在链接数据,即把描述相同事物的实例标记出来。
本发明针对现有数据集规模较大、来源广泛、语义异构的特点,设计了基于局部敏感哈希策略的实例匹配方法,充分利用实例的谓语和宾语对该实例的辨别性,设计并实现了基于局部敏感哈希策略进行实例匹配的方法。
本发明提供的基于局部敏感哈希策略的实例匹配方法详细步骤包括:
第1、根据谓语的覆盖率和辨别率找到重要谓语
重要的谓语一般具有两个特征:一是该谓语应该覆盖大多数的实例;二是该谓语的宾语应该存储了每个实例的特殊信息,从而能够区分不同的实例。所以,我们使用覆盖率和辨别率作为指标来评估谓语的重要性水平。
第1.1、谓语的覆盖率
谓语的覆盖率是指谓语在整个数据集所有实例中出现的频率,如90%的实例都有一个谓语rdfs:label来表示实例的名字,那么rdfs:label这个谓语的覆盖率就是90%。
计算方法:
计算谓语pk覆盖率Cov(pk)的方法如公式(1)所示。符号<s,pk,o>代表RDF三元组的主语、谓语和宾语。x,t和D分别代表实例、三元组和数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510307301.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:产品监督抽样打单软件系统
- 下一篇:一种分布式POS用数据存储计算机系统