[发明专利]一种基于Spark框架的实体统一算法在审
申请号: | 201710631190.0 | 申请日: | 2017-07-28 |
公开(公告)号: | CN107391704A | 公开(公告)日: | 2017-11-24 |
发明(设计)人: | 熊安萍;詹妮;蒋溢;祝清意;刘鑫洋 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京同恒源知识产权代理有限公司11275 | 代理人: | 廖曦 |
地址: | 400065 *** | 国省代码: | 重庆;85 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 框架 实体 统一 算法 | ||
技术领域
本发明属于大数据融合技术领域,涉及一种基于Spark框架的实体统一算法。
背景技术
在这个信息爆炸的时代,互联网上海量数据大量涌入,大数据这个概念便应运而生。近20年里,数据产生的方式不断在扩展,数据之间的关系变得千丝万缕,呈现出大规模数据关联、交叉和融合的局面。数据融合的概念最初来源于多传感器数据融合,早在上世纪70年代这个概念就被提出,在军事、交通、遥感、生物医学等方面已经得到了广泛的应用。在信息检索领域也存在数据融合的概念,旨在将多个独立的数据集上的检索结果合并成一个统一的结果,使得合并后的检索效果尽可能接近在一个集中数据集上进行检索的效果。由于需要集成整合来自不同数据源的异构数据,必然需要进行数据融合的研究。但是,早期数据集成研究主要集中在模式匹配等方面的问题,直到最近几年数据融合才逐渐成为研究热点。
大数据融合更为具体和形象的解读在于,通过对融合数据进行实体统一、冲突解决、数据关联,形成以目标实体为中心的多侧面全景视图。数据融合可以有效识别同一实体的不同表达、解决可能存在的数据冲突、建立同一实体多角度数据的关联,通过有效的检测和消除脏数据、挖掘数据关联,一方面提高了融合数据的质量,另一方面也为进一步的分析决策提供了基础。实体统一(又被称为实体解析(Entity Resolution)、记录链接(Record Linkage)、重复检测(Duplicate Detection)等)是指将表示同一现实世界实体的不同记录识别出来,并进行合并的过程,从而达到消除数据冗余,提高数据质量的目的,一直以来都是数据融合和数据清洗中的重点研究内容,其结果影响着数据质量。
当前主要有三种基本的解决思路,第一种是穷尽式的实体统一即传统的实体统一方法,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合。然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),主要针对小数据集,重点关注统一结果的准确性,随着大数据时代的到来,传统的实体统一方法由于时间复杂度较高,难以处理大规模数据。第二种思路是基于分块的实体统一,例如标准分块方法(Standard Blocking)定义了块的键值,具有相同块键值的记录同属于一个块中,初步将较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较,这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中。近邻排序的分块方法(Sorted Neighborhood Blocking)解决了块间实体匹配的问题,但是如何确定窗口的大小成为一个关键的问题,如果窗口较大会影响效率,如果窗口较小又会导致相似但是距离较远的实体无法被包括在同一个滑动窗口下。此外,Q-gram索引方法和Canopy聚类方法也是常用的分块技术。第三种则是基于分布式架构的实体统一,采用MapReduce模型提高实体统一计算效率成为目前较为流行的研究方向。但是这种方法的准确性将不如传统的实体统一方法。
发明内容
有鉴于此,本发明的目的在于提供一种基于Spark框架的实体统一算法,在一定程度上确保结果有效性的同时,提高实体统一计算效率。
为达到上述目的,本发明提供如下技术方案:
一种基于Spark框架的实体统一算法,包含如下步骤
S1:输入待统一的实体集数据;
S2:利用标准分块算法初步将较为相似的实体集数据划分到同一个块中得到实体合集;
S3:利用模式快速扫描算法PRSA(Pattern Rapid Scanning Algorithm)和基于编辑距离的模式匹配算法PMABED(Pattern Matching Algorithm Based on Edit Distance)计算任意实体对的相似度,对步骤S2经过分块后的实体合集进行模式匹配,利用模式抽取算法PEA(Pattern Extract Algorithm),将匹配的即实体合集中相似度大于给定阈值ζ的实体对通过PMABED算法进行回溯合并,得到抽取的模式合集,利用PRSA、PMABED算法对模式合集进行模式匹配,利用PEA算法,将匹配的即模式合集中相似度大于给定阈值ζ的模式通过PMABED算法回溯进行合并,得到共同模式;
S4:得到实体统一的结果。
进一步,所述步骤S3具体为:
S31:对所述实体集合中实体相同的部分进行统一,不同的部分进行保留,从而形成特定的涵盖具有相似性实体的模式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710631190.0/2.html,转载请声明来源钻瓜专利网。