[发明专利]一种基于MapReduce的数据处理方法和装置有效
申请号: | 201410140407.4 | 申请日: | 2014-04-09 |
公开(公告)号: | CN104978345B | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 邓超;熊龙;徐萌;钱岭;孙少陵 | 申请(专利权)人: | 中国移动通信集团公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于MapReduce的数据处理方法和装置,用以解决现有技术中的MapReduce流程在处理数据时会频繁进行磁盘读写操作从而造成额外开销,严重影响系统性能的问题。该方法包括:确定针对欲处理数据所要执行的第一MapReduce流程;所述第一MapReduce流程中包含多个MapReduce作业;将所述第一MapReduce流程中满足预先设置的合并规则的MapReduce作业进行合并,得到第二MapReduce流程;其中,所述合并规则满足:合并前的MapReduce作业的执行结果与合并后的MapReduce作业的执行结果相同;对所述预处理数据执行所述第二MapReduce流程。 | ||
搜索关键词: | 一种 基于 mapreduce 数据处理 方法 装置 | ||
【主权项】:
1.一种基于MapReduce的数据处理方法,其特征在于,包括:确定针对欲处理数据所要执行的第一MapReduce流程;所述第一MapReduce流程中包含多个MapReduce作业;将所述第一MapReduce流程中满足预先设置的合并规则的MapReduce作业进行合并,得到第二MapReduce流程;其中,所述合并规则满足:合并前的MapReduce作业的执行结果与合并后的MapReduce作业的执行结果相同;针对所述第二MapReduce流程中的每个MapReduce作业分别执行下述操作:当该MapReduce作业中包含指定操作,且所述指定操作的操作优先级不是最高时,调整所述指定操作的操作优先级,使所述指定操作的操作优先级提前;对所述欲处理数据执行调整后的第二MapReduce流程;其中,所述合并规则,具体包括:仅包含Map操作的MapReduce作业和与其相邻的下一个MapReduce作业合并;包含Map操作和Reduce操作的MapReduce作业和与其相邻的下一个且最多一个仅包含Map操作的MapReduce作业合并。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团公司,未经中国移动通信集团公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410140407.4/,转载请声明来源钻瓜专利网。