[发明专利]一种数据处理方法及其系统无效
申请号: | 200910077660.9 | 申请日: | 2009-02-10 |
公开(公告)号: | CN101799808A | 公开(公告)日: | 2010-08-11 |
发明(设计)人: | 高丹;邓超;徐萌;罗治国;周文辉;何清;谭庆;马旭东;郑诗豪;沈亚飞;陈磊 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 魏杉 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 及其 系统 | ||
1.一种数据处理方法,其特征在于,包括:
并行执行多个映射Map任务,其中,每个Map任务获取待处理数据中相应部分的数据,并对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果;
执行简化Reduce任务,所述Reduce任务根据所有局部处理结果得到所述待处理数据的全局处理结果。
2.如权利要求1所述的方法,其特征在于,获取待处理数据中相应部分的数据,具体为:
Map任务分别根据为其指定的数据行逐行读取所述待处理数据中相应行的数据。
3.如权利要求2所述的方法,其特征在于,对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果,具体为:Map任务读取到一行数据后,对该行数据进行数据处理,并在处理完成后对该行数据的处理结果进行输出,直到读取完为其指定的所有数据行。
4.如权利要求2所述的方法,其特征在于,Map任务将读取到的数据行转换为<key1,value1>对,其中,key1为Map任务为读取到的数据行分配的行标识,value1为读取到的数据行内容;
Map任务将处理后的数据输出为<key2,value2>对,其中,key2为处理后的数据行内容,value2为空;或者,key2标识出数据行中的字段以及对该字段的处理操作类型,value2为相应的处理操作结果。
5.如权利要求4所述的方法,其特征在于,对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果,包括:
对<key1,value1>对中的value1进行字段分割;以及执行以下操作之一:
判断分割得到的指定字段的值是否为空,若为空则将其替换为其他值,否则保留该值;
或者,判断分割得到的指定字段的值是否是需要被替换的值,若是,则将其替换为其他指定的值,否则保留该值;
或者,删除分割得到的指定字段;
或者,将分割得到的多个指定字段的值进行交换;
或者,将分割得到的指定字段的数值替换为与其对应的数值区间标识;
或者,将分割得到的指定字段的数值区间替换为与其对应的离散数值;
或者,按照给定的归一化算法对分割得到的指定字段的值进行计算,并用计算出的数值替换该字段的数值。
6.如权利要求4所述的方法,其特征在于,对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果,包括:
<key1,value1>对输出为<key2,value2>对,其中,key2为原<key1,value1>对中value1的值,value2为空;
根据所有局部处理结果得到所述待处理数据的全局处理结果,包括:
对所有Map任务输出的新的<key2,value2>对中具有相同key2值的所有<key2,value2>对只保留其中的一个<key2,value2>对。
7.如权利要求4所述的方法,其特征在于,对获取到的数据进行数据处理,得到所述待处理数据的局部处理结果,包括:
对<key1,value1>对中的value1进行字段分割,并分别对分割得到的数值型字段按照预设的一个或多个统计算法进行统计;
将各数值型字段的统计结果分别输出为<key2,value2>对,其中,key2标识出字段和对该数据字段的统计类别,value2为空;
根据所有局部处理结果得到所述待处理数据的全局处理结果,包括:
对所有Map任务输出的<key2,value2>对再次进行统计,得到所述待处理数据的全局统计结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910077660.9/1.html,转载请声明来源钻瓜专利网。