[发明专利]一种基于资源调度器的深度学习系统及其方法在审
申请号: | 201810668856.4 | 申请日: | 2018-06-26 |
公开(公告)号: | CN109034386A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王珏;刘芳;王彦棡;曹荣强;王晓光 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/063 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源调度器 高性能计算 学习程序 学习系统 解析 分布式学习 图形处理器 环境变量 集中管理 学习过程 用户资源 运算效率 资源分配 有效地 插件 多块 分配 学习 回收 进程 | ||
1.一种基于资源调度器的深度学习系统,包括:多个高性能计算节点,每个高性能计算节点包含多块图形处理器;其特征在于,还包括:资源调度器和深度学习框架,其中,
资源调度器用于根据用户所提需求,从多个高性能计算节点中选取所需要的资源分配给用户;
通过解析插件解析所述资源调度器分配给用户资源的环境变量,获取相应的参数;
深度学习框架根据所述参数形成一个运行的进程,从而开始执行深度学习程序;在深度学习程序完成之后,所述资源调度器回收所有分配的资源,从而完成整个深度学习过程。
2.根据权利要求1所述的系统,其特征在于,所述解析插件为应用容器引擎,所述应用容器引擎包括Singularity、Shifter或Docker。
3.根据权利要求1所述的系统,其特征在于,所述通过预编写的解析插件解析所述资源调度器分配给用户资源的环境变量,获取相应的参数步骤包括:通过预编写的解析插件解析所述资源调度器分配给用户资源的环境变量SLURM_JOB_NODELIST和SLURMD_NODENAME,获取相应的参数cluster,job_name,task_index;
深度学习框架根据所述参数cluster,job_name,task_index形成一个运行的进程,从而开始执行深度学习程序。
4.根据权利要求1所述的系统,其特征在于,所述高性能计算节点的数量为48个,每个高性能计算节点包含8块图形处理器。
5.根据权利要求1所述的系统,其特征在于,所述资源调度器为Slurm资源调度器。
6.根据权利要求1所述的系统,其特征在于,所述深度学习框架为TensorFlow深度学习框架。
7.一种基于资源调度器的深度学习方法,其特征在于,包括以下步骤:资源调度器根据用户所提需求,从多个高性能计算节点中选取所需要的资源分配给用户;
通过预编写的解析插件解析所述资源调度器分配给用户资源的环境变量,获取相应的参数;
深度学习框架根据所述参数形成一个运行的进程,从而开始执行深度学习程序;在深度学习程序完成之后,所述资源调度器回收所有分配的资源,从而完成整个深度学习过程。
8.根据权利要求7所述的方法,其特征在于,所述解析插件为应用容器引擎,所述应用容器引擎包括Singularity、Shifter或Docker。
9.根据权利要求7所述的系统,其特征在于,所述通过预编写的解析插件解析所述资源调度器分配给用户资源的环境变量,获取相应的参数步骤包括:通过预编写的解析插件解析所述资源调度器分配给用户资源的环境变量SLURM_JOB_NODELIST和SLURMD_NODENAME,获取相应的参数cluster,job_name,task_index;
深度学习框架根据所述参数cluster,job_name,task_index形成一个运行的进程,从而开始执行深度学习程序。
10.根据权利要求7所述的方法,其特征在于,所述高性能计算节点的数量为48个,每个高性能计算节点包含8块图形处理器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810668856.4/1.html,转载请声明来源钻瓜专利网。