[发明专利]一种基于Kubernetes集群GPU空间共享的方法在审
申请号: | 202111635865.1 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114510319A | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 刘万涛;虎嵩林;韩冀中 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F9/455 | 分类号: | G06F9/455;G06F9/50;G06N3/00 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 李文涛 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 kubernetes 集群 gpu 空间 共享 方法 | ||
1.一种基于Kubernetes集群GPU空间共享的方法,其特征在于,包括以下步骤:
1)使用预设数目的节点构建Kubernetes集群,所述节点包括由服务器构成的主节点和用于执行Master分配的任务的工作节点,主节点的组件包括数据总线API Server、控制器和调度器;在调度器上设置调度器插件Scheduler Extender,在工作节点上设置设备插件Device Plugin,Kubernetes集群将Device Plugin上报的工作节点的GPU型号、GPU显存资源和多进程服务MPS信息缓存进Scheduler Extender中;
2)当用户通过客户端提交Pod信息时,Pod为集群的最小调度单位,集群接收该Pod信息并判断Pod信息内容的格式是否符合集群特征,若不符合,则反馈给用户;
3)若Pod信息内容的格式符合集群特征,则API Server将Pod信息存储到分布式存储数据库Etcd中,并且在客户端建立对Pod信息的查询关系;
4)调度器根据Pod所需的调度资源将不符合条件的工作节点进行过滤,再将符合条件的工作节点信息、为Pod分配的GPU显存和活跃线程比信息发送给Scheduler Extender;
5)Scheduler Extender进行打分,然后将打分情况、待调度Pod信息添加到蚁群算法中进行运算,若得到解,则将解发给调度器,否则计划开启一个处于关闭状态的工作节点,并将该工作节点信息纳入到待调度Pod的工作节点集合中,重新通过本步骤进行迭代计算;
6)若得到的解中含有计划开启的工作节点,则打开该工作节点,否则,将待执行Pod与工作节点通过Scheduler进行绑定,将绑定信息写入Etcd中;
7)在工作节点上验证绑定的Pod能否运行在该工作节点上,若成功运行,则重新打分,并在可部署工作节点集合中去掉运行失败的工作节点,再次进行分配;
8)循环上述步骤,直到完成全部待调度Pod;
9)调度器将Pod与工作节点绑定信息、工作节点状态信息、Pod使用调度信息发送给Etcd,Etcd按照固定时间段获取集群中工作节点开关状态信息、Pod运行状态信息,对存储的对应信息进行更新。
2.如权利要求1所述的方法,其特征在于,每个工作节点运行一个Kubelet服务进程,监听端口,接收并执行主节点发来的指令,管理Pod信息和Pod中容器;每个Kubelet服务进程在API Server上注册工作节点自身信息,定期向主节点汇报资源使用情况,并监控工作节点和Pod中容器的资源。
3.如权利要求2所述的方法,其特征在于,Device Plugin以客户端的身份通过远程过程调用系统GRPC对Kubelet中的设备插件管理器Device Plugin Manager进行连接,来获取工作节点的GPU型号和GPU显存资源并进行上报和监控。
4.如权利要求1所述的方法,其特征在于,Scheduler Extender根据打分规则进行打分,该打分规则为:
G=α*Sgpum+β*Smps;
其中,Tgpum表示当前工作节点的GPU显存,Tmps表示当前工作节点的活跃线程比剩余度;Ugpum表示当前工作节点已部署的任务消耗的GPU显存,Umps表示当前工作节点已部署的任务消耗的活跃线程比;Rgpum表示当前待调度任务请求的GPU显存,Rmps表示当前待调度任务请求的活跃线程比;Sgpum表示工作节点空闲的GPU显存,Smps表示工作节点空闲的活跃线程比;α、β表示权重;G表示工作节点资源优先级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111635865.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种陶瓷电极塞式火工品桥区温度测量用薄膜传感器
- 下一篇:钢带的制造装置