[发明专利]基于Hadoop框架的大规模对象识别方法有效
申请号: | 201510047750.9 | 申请日: | 2015-01-30 |
公开(公告)号: | CN104573095B | 公开(公告)日: | 2018-08-14 |
发明(设计)人: | 王明兴;吴颖徽;马帅;汤南;贾西贝 | 申请(专利权)人: | 深圳市华傲数据技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 赵永辉 |
地址: | 518057 广东省深圳市南山区高新区中*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 框架 大规模 对象 识别 方法 | ||
本发明涉及一种基于Hadoop框架的大规模对象识别方法。该方法包括:步骤10、读入所有预定义的匹配规则;步骤20、输入作为对象描述数据的记录;步骤30、对于每个匹配规则,如果记录具有该匹配规则所需的所有属性,通过Map作业根据该记录输出键值对;步骤40、相同键的键值对通过Reduce作业输出以相应的记录组为值的键值对;步骤50、输出以记录组为值且以该记录组中的记录id分别为键的键值对,对于同一记录id所对应的记录组进行传递闭包处理得到新的记录组;步骤60、反复进行步骤50,直至记录组没有改变。本发明基于Hadoop框架的大规模对象识别方法采用大规模并行的策略,解决了面对海量数据的匹配效率问题;通过预定义的匹配规则,规避了数据缺少与错误的问题。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于Hadoop框架的大规模对象识别方法。
背景技术
网络技术飞速发展的今天,大量网络应用和产品的使用产生了海量的数据,当我们需要对数据进行清洗、集成时,就需要识别出这些数据中哪些记录是描述同一现实对象的。举个例子:各个电商销售商品时通常会记录消费者本身的信息(姓名、性别、年龄、电话、邮箱、住址等)以及商品的信息(如商品名称、类别、单价、数量等),当需要分析消费者的消费行为时,首要的事情时根据记录中消费者的信息来识别哪些记录是隶属于同一现实消费者,而通常不同的电商记录的消费者信息内容会有所不同,或者同一现实消费者在各电商网站注册的信息有差异,部分数据会缺少甚至错误,因此不能通过简单的去重来识别同一消费者。
对象识别又称记录匹配,其目的是从(不可靠的)各种数据源中识别出表示同一现实对象的记录。对象识别在数据清洗、数据集成、数据分析等应用中具有重要作用。在实际应用中,一个对象的信息通常需要与其他数据源的信息进行关联。然而,其他数据源中表示同一对象的信息可能存在错误或具有不同的表示形式。因此,对象识别并不简单,特别是在互联网技术的迅猛发展的今天,数据在急剧膨胀,采用传统的方法从海量数据中识别出哪些对象是相同(或相似的)几乎不可行,相关问题亟需解决。其中包含两个关键问题:一是针对数据缺少与错误的情况如何识别同一对象;二是面对海量的数据如何解决匹配效率问题,传统的策略面对海量数据时已无能为力。
另一方面,Hadoop框架上常使用MapReduce并行处理策略来并行处理大规模的数据集。Hadoop实现了分布式文件系统(Hadoop Distributed File System,简称HDFS),Hadoop框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。MapReduce是谷歌提出的分布式并行计算框架,一个MapReduce作业分2个步骤:Map(映射)和Reduce(化简)。参见图1,其为举例说明现有技术中Hadoop框架上并行处理MapReduce作业的流程图。Hadoop框架会启动多个节点(根据系统资源和任务等因素)来并行处理MapReduce作业。在Map端Hadoop将输入文件(比如信息记录文件)进行切片,每个切片独立的分给一个节点处理,称为一个Map作业,每个Map作业按顺序接收一组键值对——key1/value1的内容并处理,输出结果为另一组键值对——key2/value2。所有Map作业都结束后系统将会对所有的输出key2/value2按key2进行打乱、排序、分区,并将分区后的结果传送到不同的Reduce端处理。Reduce作业每次处理一个key2以及key2对应的所有value2,并输出一个或多个或零个的键值对——key3/value3。所有Reduce作业处理完成后整个MapReduce作业完成。
发明内容
本发明的目的在于提供一种基于Hadoop框架的大规模对象识别方法,能够提高面对海量数据的匹配效率。
为实现上述目的,本发明提供一种基于Hadoop框架的大规模对象识别方法,包括:
步骤10、读入所有预定义的匹配规则;
步骤20、输入作为对象描述数据的记录,记录的数据格式包括记录id及相应的属性;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司,未经深圳市华傲数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510047750.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:连续批量隧道式洗衣机及方法
- 下一篇:一种检测赭曲霉毒素A的试纸条及其应用