[发明专利]容器集群环境下容器GPU资源监控系统在审

专利信息
申请号: 202111601112.9 申请日: 2021-12-24
公开(公告)号: CN114281647A 公开(公告)日: 2022-04-05
发明(设计)人: 钱诗友;华勤;曹健;汤敬华;方楠;张宗振 申请(专利权)人: 上海声通信息科技股份有限公司;上海交通大学
主分类号: G06F11/30 分类号: G06F11/30
代理公司: 上海汉声知识产权代理有限公司 31236 代理人: 胡晶
地址: 201100 上海市*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 容器 集群 环境 gpu 资源 监控 系统
【权利要求书】:

1.一种容器集群环境下容器GPU资源监控系统,其特征在于,包括:

主机级GPU资源监控子系统:用以对集群中的各GPU卡进行全局唯一识别,并对主机中的GPU资源进行全局同步监控;

容器级GPU资源监控子系统:在每个容器中通过调用API的方式启动新的进程来对容器占据的GPU卡进行实时资源监控。

2.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统包括:对于集群中各主机内的各GPU卡进行全局同步的监控,采用master-workers的布局方式,部署时,存在一个Master节点来管理集群中GPU的配置信息。

3.根据权利要求2所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述GPU的配置信息包括:(1)该集群中各主机的配置信息,(2)各主机中各GPU卡的配置信息;

其中,各GPU卡的配置信息包括:1)全局唯一的uuid;2)GPU在主机内部的编号ID;3)GPU卡的显存容量。

4.根据权利要求3所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述master-workers的布局方式中,Master节点的主要特征:

A.全局同步的配置信息维护,通过注册集群中的主机配置信息来维护集群主机表,通过与各Worker通信获取各主机的各GPU卡的配置信息,利用uuid这一全局唯一标识作为键来维护全局GPU配置信息表;

B.全局同步的采样控制,通过Master定期产生全局同步的时间戳,并发送时间戳触发各Worker的信息采集。

5.根据权利要求3所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述master-workers的布局方式中,Worker节点的主要特征:采用daemonset的部署方式,即在集群内每个节点上部署Worker,Worker实时检测主机内的GPU配置信息,并在检测到更新时与Master进行交互。

6.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统还包括:集群中的每个主机运行一个Worker;在接收到时间戳信息后,Worker进行数据采集,包括GPU的实时利用率和实时占用显存量,并估算显存利用率。

7.根据权利要求6所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述主机级GPU资源监控子系统还包括:各Worker定期检测所在主机的GPU配置信息,包括:a.是否新增或移除GPU卡;b.主机内全部GPU卡的uuid和ID信息;c.当前主机的空闲GPU卡;

发现GPU配置信息修改时,将向Master发送配置更新信息,Master接收更新信息后进行配置更新。

8.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统包括:

在镜像中添加容器GPU监控Agent的代码,并设置环境变量;

在深度学习任务的代码中,通过调用API修改环境变量启动和管理GPU监控Agent;

在开启容器GPU监控后,容器内通过新的进程启动GPU容器监控Agent,该Agent在确认深度学习任务已启动后开始进行数据采集,并实时读取容器占据的GPU卡的uuid信息。

9.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统还包括:容器监控Agent通过与主机GPU监控系统的Master通信后获得当前使用的GPU卡的配置信息,uuid在集群中全局唯一地识别容器使用的GPU卡;

在采集信息时,用户指定采样间隔,实时采集容器使用的GPU卡的利用率与占用的显存量,并估算显存利用率。

10.根据权利要求1所述的容器集群环境下容器GPU资源监控系统,其特征在于,所述容器级GPU资源监控子系统还包括:

对于每个深度学习任务,通过封装代码包和环境变量的方式,实现深度学习任务仅调用API实现GPU资源监控的启动,对于每个容器内的资源监控Agent,该Agent运行的进程不影响深度学习任务运行的同时,感知深度学习任务的状态,在有深度学习任务占用GPU时进行数据采集;

容器监控Agent通过与主机级GPU资源监控子系统中的Master节点交互,利用GPU卡的uuid进行全局唯一地GPU识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海声通信息科技股份有限公司;上海交通大学,未经上海声通信息科技股份有限公司;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111601112.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top