[发明专利]一种Spark分区负载均衡方法在审
申请号: | 202010727870.4 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111966490A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 谢桂园;黄子纯;廖信海;魏文国 | 申请(专利权)人: | 广东技术师范大学;广东外语外贸大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 spark 分区 负载 均衡 方法 | ||
本发明公开一种负载均衡方法,包括:在启动Map任务后,通过分区监控器获取并统计操作信息,得到操作统计信息;在获得所述操作统计信息后,通过所述分区大小预测器,计算完成100%映射任务量后每个分区生成的中间数据量;根据所述分区的中间数据量,通过数据倾斜检测模型判断所述所有分区中是否存在倾斜分区;若存在,则通过资源调度器将所述倾斜分区内的数据进行降序排序,并对原划分文件进行动态调整、以均衡Spark分区负载。本发明实施例既能够使Spark的分区负载更均衡,缓解数据倾斜的问题,又能够缩短应用程序完成的时间。
技术领域
本发明涉及大数据技术领域,尤其涉及一种Spark分区负载均衡方法。
背景技术
随着大数据时代的到来,各种网络技术的兴起,信息数据急剧膨胀,传统的处理和存储系统已难以应对海量数据,而对于目前流行的Hadoop和Spark等大数据分析平台,数据倾斜对其性能造成了严重的影响。目前解决数据倾斜问题大部分都是基于Hadoop平台研究,对于Spark平台的数据倾斜问题研究相对较少。在Spark中,将Shuffle之前的阶段称为Map阶段,之后的阶段称为Reduce阶段。然而,默认的Spark分区算法在数据分布不均匀时,在执行Shuffle操作后就会出现数据倾斜。现存的对数据倾斜的解决方案都是通过增加额外的抽样操作来分析并统计中间key,value对信息,然后再对Reduce任务的负载进行预测,该类型的方法在一定程度上能够缓解数据倾斜的问题,但会造成开销过大,增加Spark平台的运行时间、浪费集群的资源的问题。因此,如何既能够使Spark的分区负载更均衡,缓解数据倾斜的问题,又能够缩短应用程序完成的时间,是亟需解决对的技术问题。
发明内容
本发明实施例提供了一种基于线性回归分区预测的负载均衡方法及装置,以解决在Spark中,现有的对数据倾斜的解决方案导致应用程序运行时间过长的技术问题,以实现既能够使Spark的分区负载更均衡,缓解数据倾斜的问题,又能够缩短应用程序完成的时间。
本发明实施例提供一种Spark分区负载均衡方法,包括
在启动Map任务后,通过分区监控器获取并统计操作信息,得到操作统计信息;
在获得所述操作统计信息后,通过所述分区大小预测器,计算完成100%映射任务量后每个分区生成的中间数据量;
根据所述分区的中间数据量,通过数据倾斜检测模型判断所述所有分区中是否存在倾斜分区;
若存在,则通过资源调度器将所述倾斜分区内的数据进行降序排序,并对原划分文件进行动态调整、以均衡Spark分区负载。
优选地,所述在启动Map任务后,通过分区监控器获取操作信息,具体为:
Worker向Master发送心跳消息,当Master收到Worker心跳信息时,分别获取每一个Reduce任务的操作信息;所述操作信息包括:已处理数据占总数据集的百分比和已完成的Map任务为所述Reduce任务所产生的子分区的总和;其中,已处理数据占总数据集的百分比随着Spark应用程序的运行而变化。
优选地,所述在获得所述操作统计信息后,通过所述分区大小预测器,计算完成100%映射任务量后每个分区生成的中间数据量,包括:
当Map任务完成时,所述已完成的Map任务为所述Reduce任务所产生的子分区的总和为所述Reduce任务的负载;
通过线性回归方程确定所述已处理数据占总数据集的百分比和所述已完成的Map任务为所述Reduce任务所产生的子分区的总和之间的相关系数;
根据所述每一个Reduce任务的相关系数,预测每一个所述Reduce任务的负载。
优选地,所述根据所述分区的中间数据量,通过数据倾斜检测模型判断所述分区中是否存在倾斜分区,具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学;广东外语外贸大学,未经广东技术师范大学;广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010727870.4/2.html,转载请声明来源钻瓜专利网。