[发明专利]一种按比例预留资源的AI训练作业的调度方法和调度系统有效
申请号: | 202210901811.3 | 申请日: | 2022-07-28 |
公开(公告)号: | CN114968601B | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 肖玉;常峰;朱建;王景祥;胡安;王子磊;刘海峰 | 申请(专利权)人: | 合肥中科类脑智能技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;H04L67/1012;H04L67/1008 |
代理公司: | 上海市锦天城律师事务所 31273 | 代理人: | 陆少凡 |
地址: | 230000 安徽省合肥市高新*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 按比例 预留 资源 ai 训练 作业 调度 方法 系统 | ||
本发明公开了一种按比例预留资源的AI训练作业的调度方法和调度系统,所述调度方法包括一预选阶段和一优选阶段,用户通过比例调度模块设置一比例,将第一资源、第二资源和第三资源按照比例为1:P:Q进行设定;获取一节点服务器中第一资源、第二资源和第三资源分别对应的总资源数量及识别训练作业,假定调度所述训练作业后,volcano调度器判断所述节点服务器剩余资源数量是否可以满足所述各资源之间的所述比例,筛选出所述节点中剩余各资源之间满足所述比例的节点,将所选出的符合条件的节点进入优选阶段,选出最优的节点处理训练作业。本发明用于提升集群高价值主要资源的利用率以及减少资源的碎片化。
技术领域
本发明涉及计算机领域的云原生、资源调度和深度学习平台等,尤其涉及一种按比例预留资源的AI训练平台的调度方法和调度系统。
背景技术
随着机器学习与深度学习持续发展,模型训练和预测对设备性能要求持续增长。其中GPU、NPU(神经网络处理器)等人工智能芯片是支持深度学习的主流硬件,由于此类芯片价格较传统CPU芯片价格更高,一般是CPU价格的10倍,因此在价格昂贵的资源GPU、NPU与价格便宜的资源CPU同时使用时,如何提升云平台中主要资源例如价格昂贵资源的利用率是提升平台收益的关键问题。
目前一些厂商都在使用K8s、volcano等搭建自己的深度学习平台,K8s、volcano这些项目也提供了资源调度器来解决资源调度的问题。如K8s自带的资源调度器,该资源调度器有一个明显的特点是:依次调度每个容器,其固有的特点也限制了其在大规模分布式训练或者大数据场景下的应用。
在大规模分布式训练或者大数据场景下,必须多个容器同时配合执行,上述大规模分布式训练或者大数据场景下计算任务中包含的容器们希望的操作是,要么同时执行,要么就都不执行,也即必须所有需要的容器都同时运行才能进行训练。在K8s依次调度每个容器的情况下,当集群资源小于计算任务资源总需求时,就会存在后面调度的部分容器因为资源不足而调度失败,其他的已经调度容器即使运行着也不能进行训练作业,会空占GPU却不能开始计算,保持死锁的状态浪费资源,这种成本是非常高的,因此K8s项目中容器的依次调度无法满足该场景的需求。
此时为了解决上述K8s中的问题,就诞生了支持批处理作业调度的volcano模块,其是CNCF(云原生计算基金会)下首个也是唯一的基于K8s的容器批量计算平台。它通过Gang Scheduling(组调度器)调度策略使一组容器要么同时执行,要么都别调度的问题。Gang调度策略是volcano调度器的核心调度算法之一,具体算法是,观察Job(任务)下的Pod(容器,是K8s进行调度的最小单元)已调度数量是否满足了最小运行数量,例如,当Job调度时,需要4个pod同时启动才能正常运行,如果集群仅能满足3个pod创建,并不会直接将3个pod调度并创建,当Job(任务)的最小运行数量得到满足时,也即pod的数量满足4个时,为Job(任务)下的所有Pod(容器)执行调度动作,否则,不执行。这个是最基本的用来解决资源死锁的问题,可以很好的提高集群资源利用率。但是,现有技术中的调度不支持每个节点服务器按照比例预留资源的调度策略,导致资源碎片化严重以及主要资源利用率低下的问题。K8s中的节点资源通常包括1个master节点以及多个worker节点。Master节点指的是集群控制节点,负责整个集群的管理和控制,它通常会占据一个独立的服务器。除了master节点,K8s集群中的其他机器被称为worker node,简称node节点,它是K8s集群中的工作负载节点,资源检测组件kubelet就运行在node节点,node节点所在的服务器被称为节点服务器。在选择调度训练任务的节点时,如果某个node节点的GPU数量符合任务的需求,但是因为其CPU资源和内存资源已经所剩无几远远低于该任务的需求,导致该节点不能执行训练任务,最终导致该节点GPU资源的闲置浪费。以GPU和CPU硬件平台为例,在纯CPU任务占用集群中某个节点大量的内存和CPU资源后,我们申请CPU和GPU混合调度任务的情况时,由于该节点剩余内存和CPU资源不足导致GPU资源因不能分配到相应的CPU和内存资源而不能被调度,造成了该节点的GPU资源只能空闲着,从而产生了资源浪费。因此,从整个集群资源利用率角度这些调度算法仍然存在以下问题:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于合肥中科类脑智能技术有限公司,未经合肥中科类脑智能技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210901811.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种水利工程用农业药剂混合装置
- 下一篇:一种防堵塞式振动给料机