[发明专利]基于强化学习的集群调度系统在审
申请号: | 201810658015.5 | 申请日: | 2018-06-25 |
公开(公告)号: | CN108874545A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 王新雷 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京兰亭信通知识产权代理有限公司 11667 | 代理人: | 赵永刚 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 强化学习 集群 集群调度系统 负载均衡器 集群作业 计算节点 管理器 矩阵 调度节点 集群状态 运算状态 整体利用率 方式构建 函数模型 优化操作 中断请求 状态向量 中断 报错 宕机 采集 发送 反馈 概率 回报 | ||
本发明提供一种基于强化学习的集群调度系统,其特征在于,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;其中,集群作业管理器,接收到所述中断请求后发送当前集群的运算状态至基于强化学习的负载均衡器;基于强化学习的负载均衡器,根据采集到的当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建Q函数模型,以获得当前中断时刻t应对集群采用的优化操作。本发明能够提高集群整体利用率,缩短用户平均等待时间偏长。
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于强化学习的集群调度系统。
背景技术
HPC(High Performance Computing,高性能计算)集群通常采用大规模计算节点进行计算,伴随着大型集群的普及应用,高性能计算集群的用户数量也越来越多。目前,HPC集群通常采用单个调度节点,或者独立的多个调度节点进行程序编译、计算作业的提交和资源分配。然而在HPC领域服务器同时接入用户数量不像互联网集群那样众多,相应的单个作业资源消耗却更加巨大。因此,HPC集群通常都会根据自身接入用户的应用特性做自定义的负载均衡策略,并借助选用的调度器,例如PBS或Slurm,进行负载均衡优化。
在实现本发明的过程中,发明人发现现有技术中至少存在如下技术问题:
现有的自定义负载均衡手段往往是以应用的具体需求做划分的,如:单个作业需求的CPU/GPU数量,对异构计算的需求,运算量需求等。然而这种调度策略是从满足具体作业需求的角度出发,虽然能保证应用需求,却无法保证集群性能被最大化利用。换言之集群整体利用率不高,且可能造成用户平均等待时间偏长。
发明内容
本发明提供的一种基于强化学习的集群调度系统,能够提高集群整体利用率,缩短用户平均等待时间偏长。
本发明提供一种基于强化学习的集群调度系统,所述集群调度系统包括连接至少一个计算节点的调度节点,所述调度节点包括集群作业管理器和基于强化学习的负载均衡器;
其中,所述集群作业管理器,接收所述基于强化学习的负载均衡器时钟间隔为△t的中断请求,并接收到所述中断请求后发送当前集群的运算状态至所述基于强化学习的负载均衡器;
所述基于强化学习的负载均衡器,根据采集到的所述当前集群的运算状态由计算节点状态向量组成的集群状态矩阵S,根据所述集群状态矩阵S判断各个计算节点未来宕机或者报错概率,反馈调优动作a至所述集群作业管理器,计算当前中断时刻t的动作回报r,并利用强化学习方式构建基于各个计算节点的节点温度、资源利用率、作业总数以及所述集群状态矩阵S的Q函数模型,以估计每一中断时刻的集群状态矩阵S所对应的预期未来收益值Q,从而获得当前中断时刻t应对集群采用的优化操作。
本发明实施例提供的基于强化学习的集群调度装置,通过根据采集的集群实时信息判断计算节点未来宕机或者报错概率,从而对集群进行调优。与现有技术相比,本发明利用基于强化学习的负载均衡策略来优化集群调度,不仅能够满足作业本身对硬件资源的需求,而且能够提高集群整体利用率,降低节点宕机和故障概率,从而降低用户整体等待时间,达到对整个集群资源的更优化利用的目的。
附图说明
图1为本发明一实施例基于强化学习的集群调度系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810658015.5/2.html,转载请声明来源钻瓜专利网。