[发明专利]一种基于GPU卡显存的混合调度方法、装置、设备和介质有效
申请号: | 202010524659.2 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111858025B | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 王德奎 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/48 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 李红萧 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 gpu 显存 混合 调度 方法 装置 设备 介质 | ||
本发明公开了一种基于GPU卡显存的混合调度方法,包括:按照预设周期向调度系统传递各个节点的GPU卡的显存使用信息;根据训练任务所需的GPU卡的个数和显存大小定义训练任务申请共享GPU卡或独享GPU卡的资源表现形式;获取每个节点的GPU卡的显存使用信息,根据显存使用信息和资源表现形式选择所有节点中符合所需条件的节点作为预选节点;对训练任务中不同的调度策略分别定义打分算法,根据打分算法计算每个预选节点的分数,并根据分数在预选节点中选择执行训练任务的节点。本发明还公开了一种装置、设备和介质。本发明提出的基于GPU卡显存的混合调度方法、装置、设备和介质可以同时支持GPU卡共享和GPU卡独享两种场景下的GPU卡资源调度。
技术领域
本发明涉及计算机技术领域,更具体地,特别是指一种基于GPU卡显存的混合调度方法、装置、设备和介质。
背景技术
GPU(Graphics Processing Unit,图形处理器)常用于并行计算加速,GPU以其强大的计算能力和低功耗特性,已经被大规模使用,特别是近些年火热的人工智能领域,大部分的模型训练都基于GPU运行,从而节省大量的计算时间,从而加速模型迭代。但是由于GPU高昂的成本,企业需要承担较多的成本用于购买GPU服务器。但是通常情况下,一个GPU卡被分配到一个研发人员后,GPU卡不可能一直被使用,或者即使使用,GPU卡的利用率也不会太高,这就导致整个集群的GPU资源利用率并不高,此时需要考虑将一个GPU卡共享给多个研发人员同时使用,此时调度系统需要能够支持共享GPU卡的调度,与之相反的另一个场景,研发人员进行较大的模型训练时,由于模型参数,导致需要占满一个GPU卡的显存,此时研发人员需要独享一个GPU卡,此时调度系统需要能够支持独享GPU卡的调度。通常的集群调度系统,需要针对这两种场景,定义不同的资源申请方式和不同的调度机制,也比较难实现GPU卡共享的训练任务和GPU卡独享的训练任务运行在同一主机,这就增加了集群管理的复杂度。
发明内容
有鉴于此,本发明实施例的目的在于提供一种基于GPU卡显存的混合调度策略,该方法通过为GPU卡的资源描述形式、节点GPU卡显存利用率、GPU卡利用率建立统一模型,基于该模型为GPU卡共享和GPU卡独享场景下的节点打分,并将该打分机制与Kubernetes默认的节点打分策略结合,为训练任务选择最优的节点,即调度系统在做GPU卡选择时,根据训练任务申请的GPU卡的资源不同,既可以选择独享GPU卡,也可以选择共享GPU卡,并且单个主机既可以存在GPU卡共享的训练任务,也可以存在GPU卡独享的训练任务。
基于上述目的,本发明一方面提供了一种基于GPU卡显存的混合调度方法,该方法包括:
按照预设周期向调度系统传递各个节点的GPU卡的显存使用信息;
响应于创建训练任务,根据训练任务所需的GPU卡的个数和显存大小定义训练任务申请共享GPU卡或独享GPU卡的资源表现形式;
获取每个节点的GPU卡的显存使用信息,根据显存使用信息和资源表现形式选择所有节点中符合所需条件的节点作为预选节点;
对训练任务中不同的调度策略分别定义打分算法,根据打分算法计算每个预选节点的分数,并根据分数在预选节点中选择执行训练任务的节点。
在本发明的基于GPU卡显存的混合调度方法的一些实施方式中,显存使用信息包括显存利用率和计算利用率,获取每个节点的GPU卡的显存使用信息,根据显存使用信息和资源表现形式选择所有节点中符合所需条件的节点作为预选节点还包括:
若是判断节点满足资源表现形式中的所需GPU卡的个数和显存大小,且GPU卡的显存利用率小于或等于GPU卡的显存总量减去训练任务所需显存大小后再除以GPU卡的显存总量的值,且GPU卡的计算利用率小于预设阈值,判断节点符合所需条件。
在本发明的基于GPU卡显存的混合调度方法的一些实施方式中,判断节点满足资源表现形式中的所需的GPU卡的个数和显存大小还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010524659.2/2.html,转载请声明来源钻瓜专利网。