[发明专利]基于集群缩放的Spark配置参数自动调优方法有效

专利信息
申请号: 201810110273.X 申请日: 2018-02-05
公开(公告)号: CN108491226B 公开(公告)日: 2021-03-23
发明(设计)人: 鲍亮;陈炜昭;卜晓璇 申请(专利权)人: 西安电子科技大学
主分类号: G06F8/71 分类号: G06F8/71;G06K9/62
代理公司: 陕西电子工业专利中心 61205 代理人: 田文英;王品华
地址: 710071 陕*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 集群 缩放 spark 配置 参数 自动 方法
【说明书】:

本发明公开的一种基于集群缩放的Spark配置参数自动调优方法,其步骤为:(1)搭建集群;(2)选择配置参数集合;(3)确定配置参数取值类型和范围;(4)缩放集群;(5)训练随机森林模型;(6)筛选最佳配置;(7)验证配置效果。本发明可以应用于海量数据处理技术领域中,通过缩放分布式内存计算框架Spark内存配置参数取值范围和待处理数据量,缩短评价每个配置的时间,通过随机森林模型建立配置与分布式内存计算框架Spark集群性能影响力之间的关系,搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。

技术领域

本发明属于计算机技术领域,更进一步涉及海量数据处理技术领域中的一种基于集群缩放的Spark配置参数自动调优方法。本发明可通过缩放分布式内存计算框架Spark集群和训练随机森林模型,得到优于默认配置下分布式内存计算框架Spark集群性能的配置。

背景技术

分布式内存计算框架Spark是基于内存计算的大数据并行计算框架。分布式内存计算框架Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将分布式内存计算框架Spark部署在大量的廉价硬件之上,形成集群。目前,分布式内存计算框架Spark已经发展成为包含众多子项目的大数据计算平台,分布式内存计算框架Spark已经被很多巨头使用,包括Amazon、eBay以及Yahoo!。很多组织都在拥有成千上万节点的集群上运行分布式内存计算框架Spark。配置参数优化一直是分布式内存计算框架Spark的研究热点之一,由于配置参数众多(多于100个),性能受配置参数影响很大,使用默认配置远没有达到最佳性能。因此,针对分布式内存计算框架Spark的配置参数自动优化是一个亟待解决的问题。

深圳先进技术研究院所在其申请的专利文献“一种数据感知的Spark配置参数自动优化方法”(申请号:201611182310.5申请日期:2016.12.20公开号:CN106648654A)中公开了一种数据感知的Spark配置参数自动优化方法。该方法通过选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;使用构建好的性能模型,通过遗传算法搜索最优配置参数。该方法存在的不足之处是,需要在实际环境上评价每个配置对分布式内存计算框架Spark集群性能影响力,作为随机森林模型的训练集,浪费大量时间成本。

中国科学院大学所在其申请的专利文献“一种Spark平台性能自动优化方法”(申请号:201610068611.9申请日期:2016.02.01公开号:CN105868019A)中公开了一种Spark平台性能自动优化方法,该方法通过Spark平台的执行机制创建一Spark应用性能模型,针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;将采集的性能数据输入Spark应用性能模型,确定运行该Spark应用时Spark应用性能模型中各参数的取值;计算Spark平台在不同配置参数组合时的性能(应用总执行时间),得到Spark平台性能最优时的配置参数组合。该方法存在的不足之处是,分布式内存计算框架Spark应用性能模型的创建需要理解分布式内存计算框架Spark的执行机制,模型创建过程复杂,难度高。

发明内容

本发明的目的是针对现有技术分布式内存计算框架Spark配置参数自动优化方法时间成本高和模型创建过程复杂的缺点,提出一种基于集群缩放的Spark配置参数自动调优方法。

实现本发明目的的思路是,按集群缩放比例缩放分布式内存计算框架Spark内存配置参数取值范围和输入数据量,缩短评价每个配置对分布式内存计算框架Spark集群性能影响力的时间,可以花费更少的时间获得充足的训练集,训练出更精确的随机森林模型。使用随机森林模型和筛选最佳配置方法,搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810110273.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top