[发明专利]一种分布式计算作业的参数配置优化方法及系统有效
申请号: | 202011436978.4 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112540849B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 闻立杰;宗瓒 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 100080 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 计算 作业 参数 配置 优化 方法 系统 | ||
本发明涉及一种分布式计算作业的参数配置优化方法及系统。该方法包括:获取不同的分布式计算作业的作业程序,并确定关键参数配置集;获取分布式计算作业执行时的集群状态,并根据关键参数配置集以及集群状态随机生成样本数据集,建立性能预测模型;采用多目标遗传算法以及最优配置选择策略配置优化模块,修正性能预测模型;获取待优化分布式计算作业的作业程序以及待优化分布式计算作业执行时的集群状态,并确定待优化的关键参数配置项组合;将待优化的关键参数配置项组合以及待优化分布式计算作业执行时的集群状态输入性能预测模型,输出执行时间最短的关键参数配置项组合。本发明能够实现快速、有效的关键参数配置优化。
技术领域
本发明涉及分布式计算作业的参数配置优化领域,特别是涉及一种分布式计算作业的参数配置优化方法及系统。
背景技术
分布式计算作业的参数配置,通常对性能有较大的影响,将配置项设置合适的参数值可以提高作业的执行效率,例如资源参数配置项、执行参数配置项等等。相比于普通的参数优化问题,分布式计算作业的参数优化特点为参数数量多和参数间关系复杂。目前应用最为广泛的分布式内存计算框架,存在四十个以上的配置项与性能有关。目前主流的参数优化工具主要分类两类。第一类通过搜索算法探索配置项的参数空间,以合理的顺序枚举配置项的值,并依次验证在该配置项下的作业执行效率。通常,搜索算法是这类方法的重点。合理的参数搜索顺序,可以减少搜索陷入局部最优的可能。这类方法适合可以对配置项的效果进行快速验证的系统。
第二类通过构建配置性能预测模型来代替直接验证配置项的效果,即使用模型来预测在特定配置下的作业执行时间,从而避免作业的实际执行。对于这类方法,性能预测模型的准确率至关重要。大多数方法将性能预测问题作为回归问题,选择机器学习算法来构建性能预测模型,对给定的配置预测作业执行时间。结合搜索算法,使用性能预测模型探索参数空间,来避免在搜索过程中通过执行作业验证配置性能。这类方法在配置优化效率上有显著的提升,但需要额外的性能模型构建的开销。
现有的技术主要有以下缺点:
1、已有的方案无法在优化作业执行时间的同时考虑资源的使用量,因此造成了内存资源的浪费。
2、由于现有的配置优化效率较低,无法为每个作业进行单独的配置优化,只能进行框架级别的优化。通过实验发现,在不同的集群负载下,作业的最优配置也是不同的。由于现有的工具没有考虑集群负载动态变化以及优化效率低等问题,无法进行作业级别的优化。
发明内容
本发明的目的是提供一种分布式计算作业的参数配置优化方法及系统,以解决内存资源浪费以及配置优化效率低的问题。
为实现上述目的,本发明提供了如下方案:
一种分布式计算作业的参数配置优化方法,包括:
获取不同的分布式计算作业的作业程序,并根据所述不同的分布式计算作业的作业程序确定关键参数配置集;所述关键参数配置集包括多个关键参数配置项组合以及每个所述关键参数配置项组合对应的执行时间;每个关键参数配置项组合包括多个关键参数的配置项;所述关键参数为对所述分布式计算作业的执行时间的影响程度高于影响程度阈值的参数;
获取分布式计算作业执行时的集群状态,并根据所述关键参数配置集以及所述集群状态随机生成样本数据集,以所述样本数据集内的关键参数配置项组合以及所述集群状态为输入,以每个所述关键参数配置项组合对应的执行时间为输出,建立性能预测模型;所述性能预测模块用于确定执行时间最短的关键参数配置项组合;
采用多目标遗传算法以及最优配置选择策略配置优化模块,根据所述性能预测模型,搜索当前集群状态下的最优配置;所述优化模块用于同时优化执行时间和内存资源使用量;
获取待优化分布式计算作业的作业程序以及待优化分布式计算作业执行时的集群状态,并根据所述待优化分布式计算作业的作业程序确定待优化的关键参数配置项组合;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011436978.4/2.html,转载请声明来源钻瓜专利网。