[发明专利]一种面向深度学习的多类型GPU集群资源管理调度方法和系统有效

专利信息
申请号: 201910630474.7 申请日: 2019-07-12
公开(公告)号: CN110442451B 公开(公告)日: 2023-05-05
发明(设计)人: 丁钢波;蔡晓晰;杨杰;高翔;王铜铜;韩樑 申请(专利权)人: 中国电子科技集团公司第五十二研究所
主分类号: G06F9/50 分类号: G06F9/50
代理公司: 杭州君度专利代理事务所(特殊普通合伙) 33240 代理人: 杨天娇
地址: 310012*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 深度 学习 类型 gpu 集群 资源管理 调度 方法 系统
【说明书】:

发明公开了一种面向深度学习的多类型GPU集群资源管理和调度方法和系统,能够根据GPU的型号将GPU集群划分为若干GPU组,统计每一GPU组的空闲运算能力,并获取接入GPU集群的所有用户,记录每一用户的最小运算能力要求;定时访问作业队列,获取作业队列中优先级最高的待处理作业,并根据待处理作业调度GPU集群资源。本发明统一管理不同品牌、型号的GPU为一个集群,用于深度学习,减少维护的GPU集群数量,简化GPU集群管理复杂度;能够满足深度学习中不同用户的需求,根据用户需求设置合理的用户属性,用户不需要熟悉和关心GPU集群环境,资源调度根据用户的运算能力要求和优先级进行,调度方法能自动分配满足需求的资源,并提高不同GPU类型组的资源使用率。

技术领域

本申请属于高性能计算领域,具体涉及一种面向深度学习的多类型GPU集群资源管理和调度方法和系统。

背景技术

在图像、语音识别、自然语言处理、强化学习等许多技术领域中,深度学习已经被证明是非常有效的,并且在某些问题上已经达到甚至超越了人类的水平。然而,深度学习对于计算能力有着很大的依赖,单GPU的资源限制往往不能满足对大规模数据和模型的处理要求。多GPU的并行计算能有效降低深度学习时间。深度学习框架TensorFlow、Caffe、PyTorch等已经支持多GPU的并行计算,但是多GPU并行计算时,GPU型号一样时才能发挥最佳性能,否则最弱的GPU将变成并行计算中的瓶颈。

大规模的GPU并行计算需要相应的集群系统管理,目前面向深度学习的GPU集群,一个GPU集群的GPU都是同一品牌和型号,以方便管理和调度,并发挥最佳性能。而GPU集群大部分情况都是分批次采购,会存在有多种型号的GPU或者不同品牌的GPU,这就需要有多个GPU管理集群,多个集群增加了GPU集群维护难度和管理复杂度,降低了资源使用效率。

GPU集群用户的需求越来越多样化,有的用户对GPU算力要求比较高,对集群响应的及时性要求低(如深度学习模型训练端用户),有的用户对及时性要求高,对算力要求低(如深度学习预测推理端用户)。但GPU集群用户管理目前缺少这种个性化需求,难以满足各类用户的需求。

且目前的GPU集群管理系统对作业资源分配方式比较单一,只能分配GPU数量或者指定特定的GPU,用户需要自己去评估资源需求和了解GPU参数,增加了集群用户的使用难度。

综上所述,现有的GPU集群系统调度功能和用户管理不能有效满足以下需求:用户的不同优先级,不同算力需求;兼容不同的GPU类型在同一个集群中统一管理,并可方便扩展需求。因此亟需一种新的GPU集群资源调度方法和对应的用户管理方法。

发明内容

本申请的目的在于提供一种面向深度学习的多类型GPU集群资源管理和调度方法和系统,能够简化GPU集群资源管理的复杂度,并根据用户的最小运算能力要求和优先级进行GPU集群资源调度,以提高不同GPU类型组的资源使用率。

为实现上述目的,本申请所采取的技术方案为:

一种面向深度学习的多类型GPU集群资源管理调度方法,用于管理GPU集群资源、管理用户以及根据用户提交的作业调度GPU集群资源,所述面向深度学习的多类型GPU集群资源管理调度方法,包括:

根据GPU的型号将GPU集群划分为若干GPU组,统计每一GPU组的空闲运算能力,并获取接入GPU集群的所有用户,记录每一用户的最小运算能力要求;

访问作业队列,获取作业队列中优先级最高的待处理作业,并通过如下步骤根据所述待处理作业调度GPU集群资源:

若存在空闲运算能力满足所述待处理作业对应的用户的最小运算能力要求的GPU组,则将待处理作业分配至满足最小运算能力要求且需要的GPU数量最多的GPU组;

若不存在空闲运算能力满足所述待处理作业对应的用户的最小运算能力要求的GPU组,则根据优先级从小到大遍历当前执行作业,比较当前执行作业与待处理作业的优先级:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司第五十二研究所,未经中国电子科技集团公司第五十二研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910630474.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top