[发明专利]基于集群缩放的Spark配置参数自动调优方法有效
申请号: | 201810110273.X | 申请日: | 2018-02-05 |
公开(公告)号: | CN108491226B | 公开(公告)日: | 2021-03-23 |
发明(设计)人: | 鲍亮;陈炜昭;卜晓璇 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F8/71 | 分类号: | G06F8/71;G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 田文英;王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集群 缩放 spark 配置 参数 自动 方法 | ||
1.一种基于集群缩放的分布式内存计算框架Spark配置参数自动调优方法,其特征在于,按集群缩放比例缩放分布式内存计算框架Spark内存配置参数取值范围和输入数据量,搜索出使多台硬件配置相同计算机组成的分布式内存计算框架Spark集群性能最佳的配置,该方法的具体步骤包括如下:
(1)搭建集群:
搭建由多台装有分布式内存计算框架Spark的硬件配置相同的计算机组成的集群;
(2)选择配置参数集合:
从分布式内存计算框架Spark集群的所有待修改的配置参数中,选择优化标准中推荐修改的配置参数,组成待优化的配置参数集合;
(3)确定配置参数取值类型和范围:
根据参数说明标准,设置分布式内存计算框架Spark集群中待优化的配置参数集合中每个参数的取值类型和范围,从每个参数的取值范围中提取默认取值,将所有默认取值组成默认配置;
(4)缩放集群:
利用分布式内存计算框架Spark集群缩放策略,缩放待优化的配置参数集合中的内存配置参数的取值范围和待处理数据;
所述的分布式内存计算框架Spark集群缩放策略的步骤如下:
第一步,按照下式,计算分布式内存计算框架Spark集群缩放比例:
其中,R表示分布式内存计算框架Spark集群缩放比例,表示向下取整操作,log2表示以2为底的对数操作,M表示每台计算机的内存大小,单位为兆;
第二步,按照下式,计算缩放后的内存配置参数的取值范围:
其中,m表示缩放后的内存配置参数,∈表示属于符号;
第三步,按照下式,计算缩放后的待处理数据:
其中,d表示缩放后的待处理数据,D表示缩放前的待处理数据;
(5)训练随机森林模型:
(5a)记录搜索过程的起始时刻;
(5b)将待优化的配置参数集合组成多维空间作为搜索空间,利用均匀采样策略,对搜索空间进行采样,得到在搜索空间中均匀分布的配置参数集合,作为初始搜索配置参数集合;
(5c)利用配置评价策略,评价初始搜索配置参数集合中的所有配置,得到按分布式内存计算框架Spark集群性能影响力从大到小排序的训练集;
(5d)从训练集中取得前个配置,形成迭代搜索配置参数集合,m表示用户指定的每次迭代搜索过程中搜索的配置总数;
(5e)将训练集输入到随机森林模型中训练模型;
(6)筛选最佳配置:
(6a)利用均匀采样策略,生成配置参数集合,从该参数集合中随机取出个配置,利用配置评价策略评价每个配置,如果该配置对分布式内存计算框架Spark集群性能影响力大于训练集中的第一个配置,创建一个有序配置参数集合,将该配置放入按分布式内存计算框架Spark集群性能影响力降序排序的有序配置参数集合中,将每个配置评价结果加入到训练集中;
(6b)对迭代搜索配置参数集合中的每个实际配置,按照范围逼近策略,缩减搜索空间,利用均匀采样策略,生成配置参数集合;将配置参数集合中的每个配置输入到随机森林模型中,预测配置对分布式内存计算框架Spark集群的性能影响力,获得预测结果中性能影响力最大的预测配置;
(6c)利用配置评价策略,获得预测配置的对分布式内存计算框架Spark集群的性能影响力,将预测配置与该配置对分布式内存计算框架Spark集群的性能影响力组成序列,加入到训练集,按照配置替换策略中的两种情形替换实际配置;如果实际配置未被替换,则下次搜索不对该实际配置采用范围逼近策略;
(6d)用完成配置替换时的时间减去搜索过程起始时刻,得到搜索过程的时间;
(6e)判断搜索过程的时间是否小于用户指定的搜索时间,若是,则执行步骤(6a),否则,执行步骤(6f);
(6f)提取训练集中对分布式内存计算框架Spark集群性能影响力最大的配置作为最佳配置;
(7)验证配置效果:
(7a)利用分布式内存计算框架Spark集群还原策略,还原缩减后的内存配置的取值和待处理数据,得到待验证配置和实际待处理数据;
(7b)利用配置评价策略,分别评价待验证配置和默认配置对分布式内存计算框架Spark集群的性能影响力,将大于默认配置对分布式内存计算框架Spark集群的性能影响力的待验证配置,作为自动调优的分布式内存计算框架Spark的配置参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810110273.X/1.html,转载请声明来源钻瓜专利网。