[发明专利]一种面向负载均衡的动态均衡分区方法及系统有效
申请号: | 202110371977.4 | 申请日: | 2021-04-07 |
公开(公告)号: | CN112965825B | 公开(公告)日: | 2023-08-04 |
发明(设计)人: | 杨迪;赵家伟;李松江;董明;王鹏 | 申请(专利权)人: | 长春理工大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京方圆嘉禾知识产权代理有限公司 11385 | 代理人: | 冯静 |
地址: | 130022 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 负载 均衡 动态 分区 方法 系统 | ||
本发明涉及一种面向负载均衡的动态均衡分区方法及系统。该方法包括:将传入Map端的任务数据存储至数据链表中;将所有元组按照数据量排序,得到排序后的数据链表;根据Reduce节点的数量构建相应数量的预分区链表;将排序后的数据链表中数据量大于数据量阈值的每个元祖,均按照预分区链表的数量进行切分,并平均分配到预分区链表中进行存储;将数据链表中数据量不大于数据量阈值的元组,基于最佳适应算法的分区分配原则依次分配到不同的预分区链表中;当所有元组均被分配到预分区链表中进行存储时,通过索引将预分区链表中的元组分配到对应的Reduce节点上。本发明可以提高Reduce节点的运行时间,提高Reduce节点利用率。
技术领域
本发明涉及分布式并行计算领域,特别是涉及一种面向负载均衡的动态均衡分区方法及系统。
背景技术
MapReduce是一种应用广泛的分布式计算框架,具有容错计算能力,可以并行处理TB级别的海量数据。目前该框架正被广泛应用于地质勘探、电子商务、医疗影像等领域。负载均衡问题在MapRecuce框架中一直是一个急需解决的关键性问题,Shuffle分区结果会影响各个Reduce端接收处理数据的均衡性进而影响整个MapReduce的运行时间。围绕如何解决负载均衡问题,国内外研究人员提出了多种研究方法与策略,可以归纳为数据采样法、针对连接操作方法、多策略融合方法、多阶段分区法。
在数据采样方法中,Chen等人通过采集整个MapReduce运行过程中的各个Map结点中间数据分布情况,并结合Reducer端的硬件资源去制定整个数据均衡分配策略。Tang等人对待处理数据集合进行采样,预测cluster的大小,根据预测结果进行数据分割并填充到Spark的Bucket上进行分配。数据采样法通过判断待处理数据集的分布情况制定相应策略,可在一定程度上解决数据倾斜问题,但数据采样存在不确定性,且会采样过多会造成额外的时间开销影响任务运行的总体时间。
数据库连接操作引发的数据倾斜问题是使MapReduce出现负载不均衡的常见问题,针对连接操作赵宇兰等利用复制、广播方法改进RangePartition算法将数据发送到每个Reduce结点上,并通过一轮MapReduce任务完成所有连接操作。周娅等人针对传统的多表连接查询算法不能有效地解决数据倾斜导致的性能瓶颈问题,统计倾斜与轮询分区策略进而均衡的将数据分发到Hadoop集群的各个计算节点上。尽管上述方法能够解决由连接操作引起的数据倾斜问题,但不具备普遍适用性。
多策略融合方法是一种通过判断不同类型的数据倾斜问题采用不同策略的方法。Alberto Belussi等人提出了一种基于一次计数的启发式方法,通过检验输入的空间数据集合的倾斜程度去决定使用哪个分区技术,以期提高后续的操作性能。多种策略融合方法可处理多种类型的数据倾斜,但在判别倾斜类型阶段会浪费大量时间最终影响MapReduce执行效率。
多阶段分区方法采用多轮次分区策略解决了一次分区造成的数据倾斜问题。张元鸣等将每个Mapepr结点要处理的数据块细分再以迭代的方式循环处理,根据已迭代的微分区分配结果决定当前迭代轮次的微分区分配方案,并不断调整历次迭代产生的数据倾斜,逐步实现数据均衡分区。Huaping Zhou通过跟踪监控全局分区信息并动态修改原分区函数,改变剩余分区索引使负载量较少Reduce端接收更多的数据。多阶段分区方法既在处理数据倾斜问题上节约了时间,又具有普遍适用性。
上述方法虽然能解决负载均衡问题,但是采用MapReduce默认的Hash分区策略在处理倾斜数据集合时易出现Reduce节点负载不均衡现象导致Reduce节点最长运行时间增加,降低Reduce节点的运行时间,同时降低了Reduce各节点利用率。
发明内容
本发明的目的是提供一种面向负载均衡的动态均衡分区方法及系统,以提高Reduce节点的运行时间,提高Reduce节点利用率。
为实现上述目的,本发明提供了如下方案:
一种面向负载均衡的动态均衡分区方法,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春理工大学,未经长春理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110371977.4/2.html,转载请声明来源钻瓜专利网。