[发明专利]基于集群缩放的Spark配置参数自动调优方法有效

申请号：	201810110273.X	申请日：	2018-02-05
公开（公告）号：	CN108491226B	公开（公告）日：	2021-03-23
发明（设计）人：	鲍亮;陈炜昭;卜晓璇	申请（专利权）人：	西安电子科技大学
主分类号：	G06F8/71	分类号：	G06F8/71;G06K9/62
代理公司：	陕西电子工业专利中心 61205	代理人：	田文英;王品华
地址：	710071 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于集群缩放 spark 配置参数自动方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开的一种基于集群缩放的Spark配置参数自动调优方法，其步骤为：(1)搭建集群；(2)选择配置参数集合；(3)确定配置参数取值类型和范围；(4)缩放集群；(5)训练随机森林模型；(6)筛选最佳配置；(7)验证配置效果。本发明可以应用于海量数据处理技术领域中，通过缩放分布式内存计算框架Spark内存配置参数取值范围和待处理数据量，缩短评价每个配置的时间，通过随机森林模型建立配置与分布式内存计算框架Spark集群性能影响力之间的关系，搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。

技术领域

本发明属于计算机技术领域，更进一步涉及海量数据处理技术领域中的一种基于集群缩放的Spark配置参数自动调优方法。本发明可通过缩放分布式内存计算框架Spark集群和训练随机森林模型，得到优于默认配置下分布式内存计算框架Spark集群性能的配置。

背景技术

分布式内存计算框架Spark是基于内存计算的大数据并行计算框架。分布式内存计算框架Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将分布式内存计算框架Spark部署在大量的廉价硬件之上,形成集群。目前，分布式内存计算框架Spark已经发展成为包含众多子项目的大数据计算平台，分布式内存计算框架Spark已经被很多巨头使用，包括Amazon、eBay以及Yahoo！。很多组织都在拥有成千上万节点的集群上运行分布式内存计算框架Spark。配置参数优化一直是分布式内存计算框架Spark的研究热点之一，由于配置参数众多(多于100个)，性能受配置参数影响很大，使用默认配置远没有达到最佳性能。因此，针对分布式内存计算框架Spark的配置参数自动优化是一个亟待解决的问题。

深圳先进技术研究院所在其申请的专利文献“一种数据感知的Spark配置参数自动优化方法”(申请号：201611182310.5申请日期：2016.12.20公开号：CN106648654A)中公开了一种数据感知的Spark配置参数自动优化方法。该方法通过选定Spark应用程序，进一步确定上述应用程序中影响Spark性能的参数，确定上述参数的取值范围；在取值范围内随机生成参数，并生成配置文件配置Spark，配置后运行应用程序并收集数据；将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量，多个向量构成训练集，通过随机森林算法对上述训练集进行建模；使用构建好的性能模型，通过遗传算法搜索最优配置参数。该方法存在的不足之处是，需要在实际环境上评价每个配置对分布式内存计算框架Spark集群性能影响力，作为随机森林模型的训练集，浪费大量时间成本。

中国科学院大学所在其申请的专利文献“一种Spark平台性能自动优化方法”(申请号：201610068611.9申请日期：2016.02.01公开号：CN105868019A)中公开了一种Spark平台性能自动优化方法，该方法通过Spark平台的执行机制创建一Spark应用性能模型，针对一设定的Spark应用，选取该Spark应用的部分数据负载在该Spark平台上运行，采集Spark应用运行时的性能数据；将采集的性能数据输入Spark应用性能模型，确定运行该Spark应用时Spark应用性能模型中各参数的取值；计算Spark平台在不同配置参数组合时的性能(应用总执行时间)，得到Spark平台性能最优时的配置参数组合。该方法存在的不足之处是，分布式内存计算框架Spark应用性能模型的创建需要理解分布式内存计算框架Spark的执行机制，模型创建过程复杂，难度高。

发明内容

本发明的目的是针对现有技术分布式内存计算框架Spark配置参数自动优化方法时间成本高和模型创建过程复杂的缺点，提出一种基于集群缩放的Spark配置参数自动调优方法。

实现本发明目的的思路是，按集群缩放比例缩放分布式内存计算框架Spark内存配置参数取值范围和输入数据量，缩短评价每个配置对分布式内存计算框架Spark集群性能影响力的时间，可以花费更少的时间获得充足的训练集，训练出更精确的随机森林模型。使用随机森林模型和筛选最佳配置方法，搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810110273.X/2.html，转载请声明来源钻瓜专利网。

上一篇：一种更新包生成方法及移动终端
下一篇：一种基于lua和redis的安全配置系统及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于集群缩放的Spark配置参数自动调优方法有效

专利文献下载