[发明专利]容器集群环境下容器GPU资源监控系统在审
申请号: | 202111601112.9 | 申请日: | 2021-12-24 |
公开(公告)号: | CN114281647A | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 钱诗友;华勤;曹健;汤敬华;方楠;张宗振 | 申请(专利权)人: | 上海声通信息科技股份有限公司;上海交通大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 201100 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 容器 集群 环境 gpu 资源 监控 系统 | ||
本发明提供了一种容器集群环境下容器GPU资源监控系统,该方法包括:主机级GPU资源监控子系统:用以对集群中的各GPU卡进行全局唯一识别,并对主机中的GPU资源进行全局同步监控;容器级GPU资源监控子系统:在每个容器中通过调用API的方式启动新的进程来对容器占据的GPU卡进行实时资源监控。本发明能够实现各主机和各容器的GPU资源的细粒度采集,实现GPU资源配置信息的全局同步,并实现主机级别GPU资源数据的全局同步采集。
技术领域
本发明涉及容器集群,GPU设备,集群资源监控技术领域,具体地,涉及一种容器集群环境下全局同步的细粒度多级(主机级,容器级)实时GPU资源监控系统,尤其涉及一种容器集群环境下容器GPU资源监控系统。
背景技术
随着近年来深度学习在诸如图像识别、自然语言处理等领域的广泛应用,对于云服务商和集群用户而言深度学习模型的训练任务正在成为集群批处理任务的热点问题。因为深度学习模型训练需要迭代运行大量的浮点计算以求解百万级甚至千万级的模型参数的梯度并进行参数更新,因此深度学习模型训练任务需要耗费大量的GPU资源。随着云原生概念的普及,使用诸如Kubernetes,OpenShift等容器编排引擎组织管理的容器集群正在广泛应用,大量先前的研究诸如Kubeflow,Optimus,SLAQ等都致力于将深度学习模型训练任务进行容器化的分布式部署,以充分利用集群中的GPU资源。然而在容器集群中深度学习任务的GPU资源监控成为了生产系统中亟需的系统工具。
当前,容器集群的资源监控系统主要关注于从容器资源分配的底层原理角度进行资源监控的设计。例如,Prometheus和Kubelet自带的Metric Server从Kubernetes的资源聚合接口cadvisor中读取实时的资源数据,cadvisor本质上是对容器集群中运行容器的cgroup进行的资源封装。Prometheus作为当前业内容器集群资源监控的主流平台,允许用户进行大量的扩展,常见的扩展工具包括主机监控平台node-exporter,该工具平台以daemonset的方式在每个主机上部署代理容器,汇总所在主机上的cgroup信息。但是对于GPU资源等未包括在cgroup中的计算资源,实时监控的集成仍然需要提升。
Prometheus通过扩展部署pod-gpu-metrics-exporter和dcgm-exporter这两个监控工具,实现了GPU资源的识别和以GPU卡为单位的容器集群GPU资源监控,但是该监控仍然存在以下问题:(1)该监控无法实现深度学习训练任务中的多级GPU细粒度监控,未包括细化到每个容器的GPU资源监控;(2)该监控在主机级别的资源监控时缺少一个Master节点来实现各主机间GPU资源监控的同步性和各主机中GPU资源配置信息的全局一致性管理。
公开号为CN111552556A的发明专利,公开了一种GPU集群服务管理系统及方法,包括:资源监控模块,用于监控GPU集群资源,生成集群资源数据,发送集群资源数据;资源分配模块,用于获取任务信息和所述集群资源数据,根据所述任务信息和集群资源数据,分配任务资源;检查模块,用于获取资源监控模块发送的集群资源数据,根据所述集群资源数据检查GPU集群资源状态,生成检查结果,发送所述检查结果;隔离模块,用于获取所述检查结果,根据所述检查结果对异常资源进行隔离。
发明内容
针对现有技术中的缺陷,本发明提供一种容器集群环境下容器GPU资源监控系统。
根据本发明提供的一种容器集群环境下容器GPU资源监控系统,所述方案如下:
第一方面,提供了一种容器集群环境下容器GPU资源监控系统,所述系统包括:
主机级GPU资源监控子系统:用以对集群中的各GPU卡进行全局唯一识别,并对主机中的GPU资源进行全局同步监控;
容器级GPU资源监控子系统:在每个容器中通过调用API的方式启动新的进程来对容器占据的GPU卡进行实时资源监控。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海声通信息科技股份有限公司;上海交通大学,未经上海声通信息科技股份有限公司;上海交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111601112.9/2.html,转载请声明来源钻瓜专利网。