[发明专利]一种用于实体匹配的方法及系统有效

申请号：	201510329196.3	申请日：	2015-06-15
公开（公告）号：	CN104866625B	公开（公告）日：	2018-08-17
发明（设计）人：	李直旭;杨强;蒋俊	申请（专利权）人：	苏州大学张家港工业技术研究院;苏州大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	常亮
地址：	215699 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于实体匹配方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种用于实体匹配的方法及系统，该方法包括：根据两个待处理实体的属性值分布分别确定各自的属性区分度；根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度；将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度；将所述实体相似度与相似度阈值进行对比，判断所述两个待处理实体的相似性。该方法能够通过利用非主属性的值以及属性分布求得实体相似度，进而进行实体匹配，较好的识别出相同的实体，节约了时间提高了效率。

技术领域

本申请涉及数据库技术领域，尤其涉及一种用于实体匹配的方法及系统。

背景技术

在信息化不断发展的当今社会，每天都有各种各样的信息涌入我们的生活。然而，在这些信息当中不乏那些重复的信息，即实例对，这不仅导致了信息的冗余，而且极有可能带来数据不一致的问题。

数据表中包含着多个实体，在两个数据表中可能存在相同的实体，这两个实体构成一个实例对表示同一个实体。由于这些实体可能以不同的方式表示，也可能在涵盖信息的广度上有所不同，使得在进行信息整合时无法较好的识别出这些相同的实体，不仅耗时耗力，而且效率低下，因此需要找出这些实例对，对它们加以识别，以便于信息的融合。

发明内容

有鉴于此，本申请提供了一种用于实体匹配的方法及系统，以克服现有技术中由于无法较好的识别出相同的实体，导致在进行信息整合时不仅耗时耗力，而且效率低下的问题。

为实现上述目的，本申请提供以下技术方案：

一种用于实体匹配的方法，该方法包括：

根据两个待处理实体的属性值分布分别确定各自的属性区分度；

根据所述两个待处理实体的非主属性的值计算得到所述两个待处理实体的属性相似度；

将所述属性区分度和所述属性相似度加权求和得到所述两个待处理实体的实体相似度；

将所述实体相似度与相似度阈值进行对比，判断所述两个待处理实体的相似性。

优选的，所述属性区分度的计算公式为：

其中，difScore(A_i,T)表示数据表T中属性A_i的区分度，distinct(A_i,T)表示数据表T中属性A_i不同值的个数，|T|表示数据表T中的实体数目。

优选的，所述属性相似度的计算公式为：

Similarity(A)＝sim(t_i[A],s_i[A])