[发明专利]容器集群环境下容器GPU资源监控系统在审
申请号: | 202111601112.9 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114281647A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 钱诗友;华勤;曹健;汤敬华;方楠;张宗振 | 申请(专利权)人: | 上海声通信息科技股份有限公司;上海交通大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 201100 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 容器 集群 环境 gpu 资源 监控 系统 | ||
1.一种容器集群环境下容器GPU资源监控系统,其特征在于,包括:
主机级GPU资源监控子系统:用以对集群中的各GPU卡进行全局唯一识别,并对主机中的GPU资源进行全局同步监控;
容器级GPU资源监控子系统:在每个容器中通过调用API的方式启动新的进程来对容器占据的GPU卡进行实时资源监控。
2.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统包括:对于集群中各主机内的各GPU卡进行全局同步的监控,采用master-workers的布局方式,部署时,存在一个Master节点来管理集群中GPU的配置信息。
3.根据权利要求2所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述GPU的配置信息包括:(1)该集群中各主机的配置信息,(2)各主机中各GPU卡的配置信息;
其中,各GPU卡的配置信息包括:1)全局唯一的uuid;2)GPU在主机内部的编号ID;3)GPU卡的显存容量。
4.根据权利要求3所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述master-workers的布局方式中,Master节点的主要特征:
A.全局同步的配置信息维护,通过注册集群中的主机配置信息来维护集群主机表,通过与各Worker通信获取各主机的各GPU卡的配置信息,利用uuid这一全局唯一标识作为键来维护全局GPU配置信息表;
B.全局同步的采样控制,通过Master定期产生全局同步的时间戳,并发送时间戳触发各Worker的信息采集。
5.根据权利要求3所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述master-workers的布局方式中,Worker节点的主要特征:采用daemonset的部署方式,即在集群内每个节点上部署Worker,Worker实时检测主机内的GPU配置信息,并在检测到更新时与Master进行交互。
6.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统还包括:集群中的每个主机运行一个Worker;在接收到时间戳信息后,Worker进行数据采集,包括GPU的实时利用率和实时占用显存量,并估算显存利用率。
7.根据权利要求6所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统还包括:各Worker定期检测所在主机的GPU配置信息,包括:a.是否新增或移除GPU卡;b.主机内全部GPU卡的uuid和ID信息;c.当前主机的空闲GPU卡;
发现GPU配置信息修改时,将向Master发送配置更新信息,Master接收更新信息后进行配置更新。
8.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统包括:
在镜像中添加容器GPU监控Agent的代码,并设置环境变量;
在深度学习任务的代码中,通过调用API修改环境变量启动和管理GPU监控Agent;
在开启容器GPU监控后,容器内通过新的进程启动GPU容器监控Agent,该Agent在确认深度学习任务已启动后开始进行数据采集,并实时读取容器占据的GPU卡的uuid信息。
9.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统还包括:容器监控Agent通过与主机GPU监控系统的Master通信后获得当前使用的GPU卡的配置信息,uuid在集群中全局唯一地识别容器使用的GPU卡;
在采集信息时,用户指定采样间隔,实时采集容器使用的GPU卡的利用率与占用的显存量,并估算显存利用率。
10.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统还包括:
对于每个深度学习任务,通过封装代码包和环境变量的方式,实现深度学习任务仅调用API实现GPU资源监控的启动,对于每个容器内的资源监控Agent,该Agent运行的进程不影响深度学习任务运行的同时,感知深度学习任务的状态,在有深度学习任务占用GPU时进行数据采集;
容器监控Agent通过与主机级GPU资源监控子系统中的Master节点交互,利用GPU卡的uuid进行全局唯一地GPU识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海声通信息科技股份有限公司;上海交通大学,未经上海声通信息科技股份有限公司;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111601112.9/1.html,转载请声明来源钻瓜专利网。