[发明专利]基于Hadoop框架的大规模对象识别方法有效

申请号：	201510047750.9	申请日：	2015-01-30
公开（公告）号：	CN104573095B	公开（公告）日：	2018-08-14
发明（设计）人：	王明兴;吴颖徽;马帅;汤南;贾西贝	申请（专利权）人：	深圳市华傲数据技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京酷爱智慧知识产权代理有限公司 11514	代理人：	赵永辉
地址：	518057 广东省深圳市南山区高新区中***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明涉及一种基于Hadoop框架的大规模对象识别方法。该方法包括：步骤10、读入所有预定义的匹配规则；步骤20、输入作为对象描述数据的记录；步骤30、对于每个匹配规则，如果记录具有该匹配规则所需的所有属性，通过Map作业根据该记录输出键值对；步骤40、相同键的键值对通过Reduce作业输出以相应的记录组为值的键值对；步骤50、输出以记录组为值且以该记录组中的记录id分别为键的键值对，对于同一记录id所对应的记录组进行传递闭包处理得到新的记录组；步骤60、反复进行步骤50，直至记录组没有改变。本发明基于Hadoop框架的大规模对象识别方法采用大规模并行的策略，解决了面对海量数据的匹配效率问题；通过预定义的匹配规则，规避了数据缺少与错误的问题。
搜索关键词：	基于 hadoop 框架大规模对象识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于Hadoop框架的大规模对象识别方法，其特征在于，包括：步骤10、读入所有预定义的匹配规则；步骤20、输入作为对象描述数据的记录，记录的数据格式包括记录id及相应的属性；步骤30、对于每个匹配规则，如果记录具有该匹配规则所需的所有属性，通过Map作业根据该记录输出键值对，其中，键为该记录的该所有属性的内容，值为该记录的记录id；步骤40、对于步骤30所输出的键值对，相同键的键值对通过Reduce作业输出以相应的记录id的集合为值的键值对，将该记录id的集合称为记录组；步骤50、输出以记录组为值且以该记录组中的记录id分别为键的键值对，对于同一记录id所对应的记录组进行传递闭包处理得到新的记录组；步骤60、反复进行步骤50，直至记录组没有改变；其中，步骤50包括：步骤501、第一Map阶段，对于记录组及其包含的记录id，通过Map作业广播记录id所属的记录组，输出以记录组为值且以该记录组中的记录id分别为键的键值对；步骤502、第一Reduce阶段，通过Reduce作业处理步骤501输出的键值对；如果记录id同时属于多个记录组，合并该多个记录组成为新的记录组，标记该新的记录组的状态信息为新增，标记该多个记录组的状态信息为删除；如果记录id只属于一个记录组，标记该记录组的状态信息为保留；步骤503、第二Map阶段，读取步骤502的输出结果，通过Map作业输出以记录组为键并且以该记录组的状态信息为值的键值对；步骤504、第二Reduce阶段，通过Reduce作业根据每个记录组的状态信息对记录组执行新增、删除或保留操作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳市华傲数据技术有限公司，未经深圳市华傲数据技术有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510047750.9/，转载请声明来源钻瓜专利网。

上一篇：连续批量隧道式洗衣机及方法
下一篇：一种检测赭曲霉毒素A的试纸条及其应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Hadoop框架的大规模对象识别方法有效

专利文献下载