[发明专利]一种资源调度方法、装置和系统有效
申请号: | 202010614480.6 | 申请日: | 2020-06-30 |
公开(公告)号: | CN111611087B | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 梅松竹;王庆林;赖志权;黄震;李东升;苏华友;魏妮 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王云晓 |
地址: | 410073 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 资源 调度 方法 装置 系统 | ||
本申请提供一种资源调度方法,包括:获取深度学习作业的作业程序,将作业程序进行转换,得到计算图中间表示;将计算图中间表示进行分割得到子图集合;对子图集合进行包装,得到各类加速器对应的工作负载镜像;根据预设的加速器能力信息、用户提交的服务水平条件和资源池的信息,从加速器集群中确定目标加速器,发送对应的工作负载镜像至目标加速器。本申请利用计算图中间表示对不同框架的作业程序进行统一抽象,基于计算图中间表示得到多种工作负载镜像,综合加速器能力信息、服务水平条件和资源池的信息,确定目标加速器并对其分配相应的工作负载镜像,合理的利用加速器资源,提高使用效率。本申请提供了具有上述有益效果的资源调度装置和系统。
技术领域
本申请涉及资源调度技术领域,特别涉及一种资源调度方法、资源调度装置、资源调度系统。
背景技术
深度学习中计算密集型的工作负载对计算系统的算力提出了极高的要求,为了提高深度学习各类工作负载的计算效能,人们通常通过两种手段来提升计算系统的算力。一是通过分布式计算的途径,增加同时参与计算的计算机节点数量来获得更高的计算能力,即通常说的水平扩容;二是通过提高单个计算机节点的计算能力,包括使用更高性能的中央处理器(Center Processing Unit,CPU)和使用专用的计算加速器等,即通常说的垂直扩容。随着深度学习相关技术和应用的飞速发展,在生产环境中,深度学习研究人员均选择将上述两种手段进行融合构建深度学习云或者深度学习即服务平台,通过在大规模分布的计算系统中各个计算机节点上增加深度学习加速器的方式,同时提高单点计算性能和全系统的吞吐率。
在大规模分布的深度学习计算系统中,使用多种异构加速器以支持不同类型工作负载同时运行成为了一个显著的趋势。在使用这样的计算系统时,当前技术采用的资源调度方法的资源使用效率差,不能够对异构加速器进行调度,局限性大。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
发明内容
本申请的目的是提供一种资源调度方法、资源调度装置、资源调度系统,能够形成全系统一致的计算图中间表示的描述,并且能够合理的利用了加速器资源,优化了加速器的资源调度。其具体方案如下:
本申请公开了一种资源调度方法,包括:
获取深度学习作业的作业程序,将所述作业程序进行转换,得到计算图中间表示;
将所述计算图中间表示进行分割得到子图集合;
对所述子图集合进行包装,得到各类加速器对应的工作负载镜像;
根据预设的加速器能力信息、用户提交的服务水平条件和资源池的信息,从加速器集群中确定目标加速器,发送对应的所述工作负载镜像至所述目标加速器。
优选的,还包括:
按照所述加速器的类别构造所述资源池;
实时监测所述加速器上的工作负载运行情况;
接收到所述加速器的反馈信息,并根据所述反馈信息更新所述资源池的信息。
优选的,预设的所述加速器能力信息的建立过程包括:
读取基准测试程序,并对所述基准测试程序进行分割、包装,得到各类所述加速器的基准工作负载;
将所述基准工作负载发送至对应的所述加速器,以使各类所述加速器运行对应的所述基准工作负载;
接收到所述加速器发送的运行信息,并根据所有的所述运行信息得到所述加速器能力信息。
优选的,所述将所述作业程序进行转换,得到计算图中间表示,包括:
校验所述作业程序对应的深度学习模型是否正确;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010614480.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动化肉类食品加工设备
- 下一篇:健康矫姿坐凳