[发明专利]一种Spark分区负载均衡方法在审
申请号: | 202010727870.4 | 申请日: | 2020-07-24 |
公开(公告)号: | CN111966490A | 公开(公告)日: | 2020-11-20 |
发明(设计)人: | 谢桂园;黄子纯;廖信海;魏文国 | 申请(专利权)人: | 广东技术师范大学;广东外语外贸大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郭浩辉;麦小婵 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种负载均衡方法,包括:在启动Map任务后,通过分区监控器获取并统计操作信息,得到操作统计信息;在获得所述操作统计信息后,通过所述分区大小预测器,计算完成100%映射任务量后每个分区生成的中间数据量;根据所述分区的中间数据量,通过数据倾斜检测模型判断所述所有分区中是否存在倾斜分区;若存在,则通过资源调度器将所述倾斜分区内的数据进行降序排序,并对原划分文件进行动态调整、以均衡Spark分区负载。本发明实施例既能够使Spark的分区负载更均衡,缓解数据倾斜的问题,又能够缩短应用程序完成的时间。 | ||
搜索关键词: | 一种 spark 分区 负载 均衡 方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范大学;广东外语外贸大学,未经广东技术师范大学;广东外语外贸大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010727870.4/,转载请声明来源钻瓜专利网。