[发明专利]一种基于成本模型的SPARK参数自动调优方法有效
申请号: | 201910991962.0 | 申请日: | 2019-10-18 |
公开(公告)号: | CN110727506B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 杨海龙;马群;李云春 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;安丽 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 成本 模型 spark 参数 自动 方法 | ||
本发明提出一种基于成本模型的Spark参数自动调优方法,包括如下步骤,步骤一:通过获取任务执行的配置与对应的成本信息,构建基于成本的性能模型,在给定的参数空间中获得优化配置;步骤二:对于未知类型的任务,采用默认参数一次运行,通过判别任务相似性,给出优化配置的参考值。本发明针对目前配置参数调优可能存在的问题提出了基于成本的性能模型,通过对Spark历史任务分析生成性能模型,通过参数空间搜索算法获取优化参数,同时随着新任务的运行不断对模型进行升级调整,增加模型的准确性,针对未知类型的任务,运行一次后,提供参数参考值。
技术领域
本发明涉及Spark任务性能模型建立,大数据系统配置参数空间搜索,任务相似性判断。
背景技术
随着科学技术的不断发展,小到一部手机、一个平板,大到天文望远镜、大型强子对撞机,都是数据的产生者,从南极到北极、从海底到太空,无时无刻不在产生着大量的数据。如何存储、处理、分析这些数据,也成为摆在大家面前的现实课题。自谷歌2003年发表Google File System论文以来,涌现了一批分布式计算框架,如hadoop、sparkSpark—工作集上的集群计算,这些框架的出现,为大数据的存储、处理提供了基础,也在各应用场景下发挥着重要作用。针对hadoop在迭代处理时效率低下的问题,Spark应运而生。虽然spark在处理迭代计算任务上有着较好的表现,但是对于spark任务的性能优化,仍然是值得关注的问题。对于spark的性能优化,主要关注在任务代码优化、内存优化、配置参数优化和调度优化等方面,但是对于spark集群运维人员来说,调整优化配置参数,是提高spark系统性能是最常见、最便于实施的操作。
在大数据时代,针对各类大数据系统的参数调优也提出了各种方设法,这些方法各有特点,但也存在一些不足,使得在参数调优过程中或多或少存在一些问题。目前常用的大数据系统参数调优方法有以下几种。
1.基于现成的任务模拟器,进行参数优化
基于现成的模拟器,可以减少对系统信息的采集,利用模拟器器中的通用模型对待优化任务进行调优。但是基于模拟器进行配置参数优化,模型无法根据系统具体情况进行调整升级,模型对具体任务的适应性较差,获取的优化参数难以达到最优值。
2.通过动态插装的方法构建性能模型进行配置参数优化
通过动态插装可以获取任务运行时的大量系统状态值,为生成性能模型提供支持。但是过多的插装必然会对任务运行产生影响,导致难以精准的构建性能模型,使得参数优化有所偏差。
3.手动进行配置参数优化
对于经验丰富的运维人员来说,在待调参数较少时可以通过对配置参数的调整,实现任务性能的大幅增长,但是这需要对系统非常熟悉才能够达到,而且无法确定是否有更好的配置。但是随着参数的增加,即使是经验丰富的运维人员,也很难通过手动调整配置参数进行调优。
综上所述,目前的方法在配置参数调优中难以动态升级性能模型;生成的性能模型受系统运行状态影响较大,无法精准的建立模型;手动调优无法适应较大参数参数空间。针对存在的问题,需要一套在建立性能模型时对系统产生影响很小,同时模型可以动态升级的参数自动调优系统。
发明内容
本发明提供了一种基于成本模型的Spark参数自动调优方法,包括如下步骤,
步骤一:通过获取任务执行的配置与对应的成本信息,构建基于成本的性能模型,在给定的参数空间中获得优化配置;
步骤二:对于未知类型的任务,采用默认参数一次运行,通过判别任务相似性,给出优化配置的参考值
其中,步骤一、具体包括以下步骤:
步骤(1.1)随机选择参数N次;
通过随机采样的方法,在给定的参数空间中,提供多种样本种类,其中N的次数大于等于20;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910991962.0/2.html,转载请声明来源钻瓜专利网。