[发明专利]基于Spark架构的数据均衡分区方法及计算机存储介质在审
申请号: | 201910333549.5 | 申请日: | 2019-04-24 |
公开(公告)号: | CN110069502A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 宋爱波;杜名洋 | 申请(专利权)人: | 东南大学 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F9/50;G06F9/48 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210000 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark架构的数据均衡分区方法及计算机存储介质,本方法首先获取应用程序执行过程中的Shuffle中间数据对应的键值分布信息,然后分析Shuffle中间数据分区特性,构建Shuffle中间数据均衡分区模型,最后利用所述的键值分布信息和Spark数据均衡分区算法对均衡分区模型求解,得到Shuffle中间数据分区策略。本发明能够有效避免Shuffle中间数据的倾斜分区,从而进一步提高任务的执行速度,提高Spark的执行性能。 | ||
搜索关键词: | 中间数据 数据均衡 计算机存储介质 分布信息 分区模型 分区 架构 均衡 应用程序执行 分区策略 分区算法 分区特性 构建 求解 分析 | ||
【主权项】:
1.一种基于Spark架构的数据均衡分区方法,其特征在于,包括以下步骤:(1)获取应用程序执行过程中的Shuffle中间数据对应的键值分布信息;(2)分析Shuffle中间数据分区特性,构建Shuffle中间数据均衡分区模型;(3)利用步骤(1)中所述的键值分布信息和Spark数据均衡分区算法对步骤(2)中的均衡分区模型求解,得到Shuffle中间数据分区策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910333549.5/,转载请声明来源钻瓜专利网。
- 上一篇:一种大数据储存系统
- 下一篇:一种数据操作方法及设备