[发明专利]GPU集群资源控制系统、方法、装置、设备及存储介质在审
申请号: | 201911159666.0 | 申请日: | 2019-11-22 |
公开(公告)号: | CN111078356A | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 杨明珠;张健 | 申请(专利权)人: | 北京达佳互联信息技术有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 李欣;丁芸 |
地址: | 100085 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | gpu 集群 资源 控制系统 方法 装置 设备 存储 介质 | ||
本公开的实施例提供的GPU集群资源控制系统、方法、装置、设备及存储介质,涉及容器集群技术领域,通过在各物理机中安装卡类型相同的GPU,根据所述待处理服务的GPU的卡类型和各所述物理机中GPU的卡类型在所述多台物理机中确定所述待处理服务的目标物理机,并根据所述待处理服务的GPU的卡数量和所述目标物理机中安装的GPU的卡数量确定处理所述待处理服务的目标GPU,以实现当一个GPU集群中存在多种类型的GPU卡时GPU资源分配的问题,从而提高GPU资源的利用率。
技术领域
本公开涉及容器集群技术领域,特别是涉及一种GPU集群资源控制系统、方法、装置、设备及存储介质。
背景技术
随着深度学习的广泛推广和使用,在越来越多的实际应用中,利用GPU(GraphicsProcessing Unit,图形处理器)进行模型训练和在线预测服务。GPU作为一种高成本的资源,如何能最大程度的提高其利用率,已经成为亟待解决的问题。
相关技术中,可以将位于多台物理机上的多块GPU组成GPU集群,例如,每台物理机上安装有4至8块GPU,利用docker容器技术,可以将每块GPU与一个容器相绑定。在基于建立的该GPU集群提供服务时,每块GPU可以供一个服务使用。
而没有使用docker(开源的应用容器引擎)容器技术做GPU资源隔离的情况,从服务稳定性的角度考虑,每台物理机只能部署一个服务,然而一个服务通常又很难将一台物理机上的GPU卡都利用上。使用docker容器技术做GPU资源隔离后,每个容器绑定一块GPU,供一个服务使用。这样可以做到比物理机更细粒度的资源分配,提高了GPU资源的利用率。
然而,上述相关技术中存在的问题是:每块GPU供一个服务的一个进程使用,对GPU资源的利用率仍然不高,而且当一个GPU集群中存在多种类型的GPU卡时,无法解决GPU混部和资源分配的问题。
发明内容
本公开提供一种GPU集群资源控制系统、方法、装置、电子设备、存储介质及包含指令的计算机程序产品,以至少解决相关技术中当一个GPU集群中存在多种类型的GPU卡时,无法解决GPU混部和资源分配的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,本公开提供一种GPU集群资源控制系统,所述系统包括:
调度器以及多台物理机;
各所述物理机,被配置为安装至少一块GPU,各所述物理机中安装的GPU的卡类型相同;
所述调度器,被配置为获取待处理服务的GPU的卡类型和GPU的卡数量,根据所述待处理服务的GPU的卡类型和各所述物理机中GPU的卡类型在所述多台物理机中确定所述待处理服务的目标物理机,并根据所述待处理服务的GPU的卡数量和所述目标物理机中安装的GPU的卡数量确定处理所述待处理服务的目标GPU。
可选的,所述调度器还被配置为接收所述待处理服务的启动信息,所述待处理服务包括多个进程,所述启动信息为各所述进程的启动信息。
可选的,所述系统还包括:
容器,所述容器创建于各所述物理机中,所述容器用于存储所述待处理服务的启动信息,各所述物理机创建至少一个容器。
可选的,所述调度器还被配置为确定存储所述待处理服务的启动信息的目标容器,并将所述目标容器与所述目标GPU建立关联关系。
可选的,所述容器包括进程管理工具,所述目标容器的进程管理工具被配置为从所述目标容器中读取所述待处理服务的启动信息,依据各所述进程的启动信息,获取各所述进程对应的启动项,所述启动项为启动该进程所需要的程序,基于各所述进程的启动项,在所述目标GPU中启动各所述进程。
根据本公开实施例的第二方面,本公开提供一种GPU集群资源控制方法,所述方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京达佳互联信息技术有限公司,未经北京达佳互联信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911159666.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据处理方法、终端、电子设备和计算机存储介质
- 下一篇:冲洗衬套及冲洗装置