[发明专利]资源调度方法及装置有效
申请号: | 201910837021.1 | 申请日: | 2019-09-05 |
公开(公告)号: | CN110688218B | 公开(公告)日: | 2022-11-04 |
发明(设计)人: | 房体盈 | 申请(专利权)人: | 广东浪潮大数据研究有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F9/455 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 510620 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源 调度 方法 装置 | ||
本发明涉及计算机技术领域,特别是涉及一种资源调度方法及装置。该方法包括:当接收到资源调度请求时,确定调度请求条件,调度请求条件包括目标GPU个数,及每个GPU资源的目标显存大小;获取集群资源缓存装置中缓存的节点信息,并依据各个节点信息,选取满足调度请求条件的目标计算节点;在目标计算节点中创建docker,将目标计算节点与docker绑定,并将各个空闲GPU资源挂载至docker中,以使docker在目标计算节点中调用各个空闲GPU资源,完成资源调度任务。应用该方法,可以合理地利用各个空闲GPU资源中的显存,提高每个空闲GPU资源的利用率,防止空闲GPU资源中剩余显存的浪费。
技术领域
本发明涉及计算机技术领域,特别是涉及一种资源调度方法及装置。
背景技术
在人工智能时代,当算法工程师需要对各种机器模型进行大量的深度学习时,通常需要docker容器作为训练环境,以使机器模型依据该训练环境进行学习和训练。在一定训练条件下,也可使用图形处理器GPU资源结合docker进行处理计算,以提高机器模型的训练速度。
当使用GPU资源提高训练速度时,在执行训练任务的过程中,GPU资源的使用率不会太高,一个训练任务可能会占用分别占用多个GPU资源,但每个训练任务并不能100%占用每个GPU资源的显存,例如在很长的训练时间内,该训练任务只占了每个GPU资源的30%或50%的显存大小,而每个GPU资源剩余的显存通常处于闲置状态。因此,现有的各个GPU资源的使用方式,并不能充分且合理地利用整个GPU资源的所有显存,导致各个GPU资源的利用率较低,造成GPU资源的浪费。
发明内容
有鉴于此,本发明提供了一种资源调度方法,通过该方法,合理地利用各个GPU资源中的所有显存,提高每个GPU资源的利用率,防止GPU资源的浪费。
本发明还提供了一种资源调度装置,用以保证上述方法在实际中的实现及应用。
一种资源调度方法,包括:
当接收到用户发送的资源调度请求时,确定与所述资源调度请求对应的调度请求条件,所述调度请求条件包括图形处理器GPU资源的目标GPU个数,及每个所述GPU资源对应的目标显存大小;
获取预先设置的集群资源缓存装置中预先缓存的每个计算节点的节点信息,并依据各个所述节点信息,选取满足所述调度请求条件的目标计算节点;
在所述目标计算节点中创建与所述资源调度请求对应的容器docker,将所述目标计算节点与所述docker进行绑定,并将所述目标计算节点中的各个空闲GPU资源挂载至所述docker中,以使所述docker在所述目标计算节点中调用各个所述空闲GPU资源,完成与所述资源调度请求对应的资源调度任务。
上述的方法,可选的,所述集群资源缓存装置缓存每个计算节点的节点信息的过程,包括:
设置与各个所述计算节点对应的监控周期,并调用预先设置的各个资源上报装置依据所述监控周期分别监控各个所述计算节点,获得每个所述资源上报装置反馈的每个所述计算节点的节点信息;
将各个所述节点信息发送至所述集群资源缓存装置,触发所述集群资源缓存装置缓存每个所述计算节点的节点信息。
上述的方法,可选的,所述依据各个所述节点信息,选取满足所述调度请求条件的目标计算节点,包括:
获取每个所述节点信息中的GPU信息,每个所述GPU信息包括与其对应的计算节点中各个空闲GPU资源的空闲GPU个数,及每个所述空闲GPU资源对应的剩余显存大小;
依据每个所述GPU信息中每个所述空闲GPU资源的剩余显存大小,确定每个所述计算节点中的总剩余显存大小,并依据所述调度请求条件计算与所述资源调度请求对应的总目标显存大小;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东浪潮大数据研究有限公司,未经广东浪潮大数据研究有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910837021.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:资源释放方法及装置
- 下一篇:基于反向混沌布谷鸟搜索的自适应权重负载均衡算法