[发明专利]基于集群缩放的Spark配置参数自动调优方法有效
申请号: | 201810110273.X | 申请日: | 2018-02-05 |
公开(公告)号: | CN108491226B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 鲍亮;陈炜昭;卜晓璇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F8/71 | 分类号: | G06F8/71;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 缩放 spark 配置 参数 自动 方法 | ||
本发明公开的一种基于集群缩放的Spark配置参数自动调优方法,其步骤为:(1)搭建集群;(2)选择配置参数集合;(3)确定配置参数取值类型和范围;(4)缩放集群;(5)训练随机森林模型;(6)筛选最佳配置;(7)验证配置效果。本发明可以应用于海量数据处理技术领域中,通过缩放分布式内存计算框架Spark内存配置参数取值范围和待处理数据量,缩短评价每个配置的时间,通过随机森林模型建立配置与分布式内存计算框架Spark集群性能影响力之间的关系,搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。
技术领域
本发明属于计算机技术领域,更进一步涉及海量数据处理技术领域中的一种基于集群缩放的Spark配置参数自动调优方法。本发明可通过缩放分布式内存计算框架Spark集群和训练随机森林模型,得到优于默认配置下分布式内存计算框架Spark集群性能的配置。
背景技术
分布式内存计算框架Spark是基于内存计算的大数据并行计算框架。分布式内存计算框架Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将分布式内存计算框架Spark部署在大量的廉价硬件之上,形成集群。目前,分布式内存计算框架Spark已经发展成为包含众多子项目的大数据计算平台,分布式内存计算框架Spark已经被很多巨头使用,包括Amazon、eBay以及Yahoo!。很多组织都在拥有成千上万节点的集群上运行分布式内存计算框架Spark。配置参数优化一直是分布式内存计算框架Spark的研究热点之一,由于配置参数众多(多于100个),性能受配置参数影响很大,使用默认配置远没有达到最佳性能。因此,针对分布式内存计算框架Spark的配置参数自动优化是一个亟待解决的问题。
深圳先进技术研究院所在其申请的专利文献“一种数据感知的Spark配置参数自动优化方法”(申请号:201611182310.5申请日期:2016.12.20公开号:CN106648654A)中公开了一种数据感知的Spark配置参数自动优化方法。该方法通过选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;使用构建好的性能模型,通过遗传算法搜索最优配置参数。该方法存在的不足之处是,需要在实际环境上评价每个配置对分布式内存计算框架Spark集群性能影响力,作为随机森林模型的训练集,浪费大量时间成本。
中国科学院大学所在其申请的专利文献“一种Spark平台性能自动优化方法”(申请号:201610068611.9申请日期:2016.02.01公开号:CN105868019A)中公开了一种Spark平台性能自动优化方法,该方法通过Spark平台的执行机制创建一Spark应用性能模型,针对一设定的Spark应用,选取该Spark应用的部分数据负载在该Spark平台上运行,采集Spark应用运行时的性能数据;将采集的性能数据输入Spark应用性能模型,确定运行该Spark应用时Spark应用性能模型中各参数的取值;计算Spark平台在不同配置参数组合时的性能(应用总执行时间),得到Spark平台性能最优时的配置参数组合。该方法存在的不足之处是,分布式内存计算框架Spark应用性能模型的创建需要理解分布式内存计算框架Spark的执行机制,模型创建过程复杂,难度高。
发明内容
本发明的目的是针对现有技术分布式内存计算框架Spark配置参数自动优化方法时间成本高和模型创建过程复杂的缺点,提出一种基于集群缩放的Spark配置参数自动调优方法。
实现本发明目的的思路是,按集群缩放比例缩放分布式内存计算框架Spark内存配置参数取值范围和输入数据量,缩短评价每个配置对分布式内存计算框架Spark集群性能影响力的时间,可以花费更少的时间获得充足的训练集,训练出更精确的随机森林模型。使用随机森林模型和筛选最佳配置方法,搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810110273.X/2.html,转载请声明来源钻瓜专利网。