[发明专利]一种面向中间值长度异构的编码MapReduce方法有效
申请号: | 202010446348.9 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111490795B | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 唐斌;董亚美;叶保留;陆桑璐;陈琰;陈晓露;吴金龙;方晓蓉 | 申请(专利权)人: | 南京大学;国网上海市电力公司 |
主分类号: | H03M7/30 | 分类号: | H03M7/30 |
代理公司: | 南京泉为知识产权代理事务所(特殊普通合伙) 32408 | 代理人: | 许丹丹 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 中间 长度 编码 mapreduce 方法 | ||
本发明公开了一种面向中间值长度异构的编码MapReduce方法。所述方法基于不同Reduce函数间所需中间值的字节长度非全等但相同Reduce函数下所需的中间值字节长度相等的场景,通过对输入文件集进行冗余存储放置与Reduce函数的适当分配,并对中间值采用编码与多播相结合的方式,极大地压缩Shuffle阶段的数据传输量,避免不必要的通信开销,从而缩短整个MapReduce任务的执行时间。
技术领域
本发明涉及分布式系统领域,具体涉及一种面向中间值长度异构的编码MapReduce方法。
背景技术
MapReduce最早是由谷歌提出用于大规模数据并行处理的,它将大规模数据处理作业分割成多个独立运行的Map任务,并运行以生成一定数量的中间值,这些中间值随后在Shuffle阶段混洗,并被Reduce任务合并生成最终的输出文件。然而,Shuffle阶段时需要在Map任务和Reduce任务之间传输大量中间值,导致通信负载过重,从而延缓整个MapReduce作业的执行时间。例如,在Facebook Hadoop集群中,Shuffle阶段可占总作业执行时间的33%;当在Amazon EC2集群运行自连接应用程序时,Shuffle阶段占时比可高达70%。而且,随着集群规模的增大,Shuffle阶段所造成的通信瓶颈也越来越严重。因此,降低Shuffle阶段的通信开销对降低总作业的时延有重要意义。
为了克服Shuffle阶段的通信瓶颈问题,很多应用场景都采用了编码技术。针对通信瓶颈问题,可以利用计算节点上富余的存储或计算能力,通过存储冗余数据或进行冗余计算,使得计算节点拥有其他节点的部分数据,然后将自身数据与冗余数据进行编码,并将编码后的数据多播给其他节点,而其他节点在收到编码数据后结合本地的数据即可解码出所需要的数据。其中,编码与解码方案大多采用异或位操作。通过这种方式,能够以较小的额外存储或计算代价换取通信负载的大幅度减少,从而在一定程度上解决通信瓶颈问题。
一般针对Shuffle阶段通信瓶颈问题的编码技术主要集中在中间值字节的长度相等的情况,此时通过异或操作编码时就不会浪费比特。但仍有许多中间值的字节长度不同的情况,如复杂的查询系统、倒排索引、图算法等。此时如果使用异或操作来编码与解码,将不可避免地产生比特的浪费,导致通信开销的浪费。因此,对MapReduce架构而言,优化中间值字节长度非全等情况下Shuffle阶段的性能是很有必要的。
发明内容
本发明的目的是,基于不同Map计算间中间值字节长度非全等但相同Map计算下所有中间值字节长度相等的场景下,提出一种提高MapReduce任务Shuffle性能的优化方法,能够通过编码方式压缩Shuffle阶段的数据传输量,避免不必要的通信开销,从而缩短整个MapReduce任务的执行时间。
为了达到上述发明目的,本发明采用以下技术方案:
第一方面,提供一种面向中间值长度异构的编码MapReduce方法,包括以下步骤:
收集各个Reduce函数所需中间值的字节长度值;
依据Reduce函数间所需中间值的字节长度不同,指定各个工作节点负责特定Reduce函数的结果输出;
确定存储冗余度,所述存储冗余度用于表征一个输入文件将被放置在多少个不同的工作节点上;
根据输入文件集与存储冗余度,将输入文件集放置在各个工作节点上;
工作节点对中间值编码并多播编码值,压缩Shuffle数据传输量;
工作节点根据接收到的编码值与本地已有的中间值,解码还原出需要的中间值。
进一步地,所述收集各个Reduce函数所需中间值的字节长度值包括:
模拟MapReduce作业,Map节点计算函数不变,Reduce节点的输出更改为各个Map计算函数的中间值的字节长度值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学;国网上海市电力公司,未经南京大学;国网上海市电力公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010446348.9/2.html,转载请声明来源钻瓜专利网。