[发明专利]一种分布式计算作业的参数配置优化方法及系统有效
申请号: | 202011436978.4 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112540849B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 闻立杰;宗瓒 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 王爱涛 |
地址: | 100080 北京市海淀区清*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 计算 作业 参数 配置 优化 方法 系统 | ||
1.一种分布式计算作业的参数配置优化方法,其特征在于,包括:
获取不同的分布式计算作业的作业程序,并根据所述不同的分布式计算作业的作业程序确定关键参数配置集;所述关键参数配置集包括多个关键参数配置项组合以及每个所述关键参数配置项组合对应的执行时间;每个关键参数配置项组合包括多个关键参数的配置项;所述关键参数为对所述分布式计算作业的执行时间的影响程度高于影响程度阈值的参数;
获取分布式计算作业执行时的集群状态,并根据所述关键参数配置集以及所述集群状态随机生成样本数据集,以所述样本数据集内的关键参数配置项组合以及所述集群状态为输入,以每个所述关键参数配置项组合对应的执行时间为输出,建立性能预测模型;所述性能预测模型用于确定执行时间最短的关键参数配置项组合;
采用多目标遗传算法以及最优配置选择策略对优化模块进行配置,根据所述性能预测模型,搜索当前集群状态下的最优配置;所述优化模块用于同时优化执行时间和内存资源使用量;
获取待优化分布式计算作业的作业程序以及待优化分布式计算作业执行时的集群状态,并根据所述待优化分布式计算作业的作业程序确定待优化的关键参数配置项组合;
将所述待优化的关键参数配置项组合以及所述待优化分布式计算作业执行时的集群状态输入所述性能预测模型,输出所述待优化分布式计算作业的执行时间最短的关键参数配置项组合;所述待优化分布式计算作业的执行时间最短的关键参数配置项组合内的每项关键参数配置项的关键参数配置为所述待优化分布式计算作业的最优配置;
所述获取分布式计算作业执行时的集群状态,并根据所述关键参数配置集以及所述集群状态随机生成样本数据集,以所述样本数据集内的关键参数配置项组合以及所述集群状态为输入,以每个所述关键参数配置项组合对应的执行时间为输出,建立性能预测模型,具体包括:
采用交叉验证的方法选择多个浅层全连接神经元网络作为所述性能预测模型的第一层神经网络,将各个第一层神经网络的输出作为第二层线性回归层的输入,构建双层模型,并利用所述双层模型训练所述样本数据集;以所述样本数据集内的关键参数配置项组合以及所述集群状态为第一层神经网络的输入,输出第一层神经网络的预测结果;
将所述预测结果作为所述第二层线性回归层的输入,利用线性回归模型学习训练方法,映射至所述样本数据集的执行时间,输出所述关键参数配置项组合对应的执行时间,建立性能预测模型;
所述将所述待优化的关键参数配置项组合以及所述待优化分布式计算作业执行时的集群状态输入所述性能预测模型,输出所述待优化分布式计算作业的执行时间最短的关键参数配置项组合,具体包括:
随机产生所述待优化的关键参数配置项组合,采样所述待优化分布式计算作业执行时的集群状态,输入性能预测模型,以执行时间最短以及内存资源使用量最少为目标,利用NSGA-II算法优化所述待优化分布式计算作业的执行时间,确定优化结果;判断所述优化结果是否满足收敛条件,若是,将执行时间最短的关键参数配置项组合作为最优解;若否,重新利用NSGA-II算法优化所述待优化分布式计算作业的执行时间;
判断所述最优解中是否存在最优配置,若是,舍弃性能表现程度低于性能表现程度阈值的关键参数配置项以换取内存资源使用量最少的关键参数配置项组合;若否,输出所述待优化分布式计算作业的执行时间最短的关键参数配置项组合。
2.根据权利要求1所述的分布式计算作业的参数配置优化方法,其特征在于,所述获取不同的分布式计算作业的作业程序,并根据所述不同的分布式计算作业的作业程序确定关键参数配置集,具体包括:
在每项配置项的参数取值范围内,随机生成多个配置项组合;所述配置项包括关键参数的配置项以及辅助参数的配置项;
基于任一个所述分布式计算作业的作业程序结合所述配置项组合,确定每个所述配置项组合对应的执行时间;
基于所述执行时间,利用p-value的参数和回归树的不纯度确定关键参数;
根据所述关键参数确定关键参数配置集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011436978.4/1.html,转载请声明来源钻瓜专利网。