[发明专利]一种面向深度学习的多类型GPU集群资源管理调度方法和系统有效
申请号: | 201910630474.7 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110442451B | 公开(公告)日: | 2023-05-05 |
发明(设计)人: | 丁钢波;蔡晓晰;杨杰;高翔;王铜铜;韩樑 | 申请(专利权)人: | 中国电子科技集团公司第五十二研究所 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310012*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向深度学习的多类型GPU集群资源管理和调度方法和系统,能够根据GPU的型号将GPU集群划分为若干GPU组,统计每一GPU组的空闲运算能力,并获取接入GPU集群的所有用户,记录每一用户的最小运算能力要求;定时访问作业队列,获取作业队列中优先级最高的待处理作业,并根据待处理作业调度GPU集群资源。本发明统一管理不同品牌、型号的GPU为一个集群,用于深度学习,减少维护的GPU集群数量,简化GPU集群管理复杂度;能够满足深度学习中不同用户的需求,根据用户需求设置合理的用户属性,用户不需要熟悉和关心GPU集群环境,资源调度根据用户的运算能力要求和优先级进行,调度方法能自动分配满足需求的资源,并提高不同GPU类型组的资源使用率。 | ||
搜索关键词: | 一种 面向 深度 学习 类型 gpu 集群 资源管理 调度 方法 系统 | ||
【主权项】:
1.一种面向深度学习的多类型GPU集群资源管理调度方法,用于管理GPU集群资源、管理用户以及根据用户提交的作业调度GPU集群资源,其特征在于,所述面向深度学习的多类型GPU集群资源管理调度方法,包括:根据GPU的型号将GPU集群划分为若干GPU组,统计每一GPU组的空闲运算能力,并获取接入GPU集群的所有用户,记录每一用户的最小运算能力要求;访问作业队列,获取作业队列中优先级最高的待处理作业,并通过如下步骤根据所述待处理作业调度GPU集群资源:若存在空闲运算能力满足所述待处理作业对应的用户的最小运算能力要求的GPU组,则将待处理作业分配至满足最小运算能力要求且需要的GPU数量最多的GPU组;若不存在空闲运算能力满足所述待处理作业对应的用户的最小运算能力要求的GPU组,则根据优先级从小到大遍历当前执行作业,比较当前执行作业与待处理作业的优先级:若所有的当前执行作业的优先级均大于或等于待处理作业的优先级,则等待下一次调度;若存在当前执行作业的优先级小于待处理作业的优先级,则依次计算处理当前执行作业的GPU组的空闲运算能力和待释放运算能力的总和,若所有计算后的GPU组的总和均不满足所述待处理作业对应的用户的最小运算能力要求,则等待下一次调度;若存在总和满足所述待处理作业对应的用户的最小运算能力要求的GPU组,则将待处理作业分配至满足最小运算能力要求且需要的GPU数量最多的GPU组,并将该GPU组中与待释放运算能力对应的当前执行作业保存后挂起。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十二研究所,未经中国电子科技集团公司第五十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910630474.7/,转载请声明来源钻瓜专利网。