[发明专利]一种基于资源调度器的深度学习系统及其方法在审
申请号: | 201810668856.4 | 申请日: | 2018-06-26 |
公开(公告)号: | CN109034386A | 公开(公告)日: | 2018-12-18 |
发明(设计)人: | 王珏;刘芳;王彦棡;曹荣强;王晓光 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/063 |
代理公司: | 北京亿腾知识产权代理事务所 11309 | 代理人: | 陈霁 |
地址: | 100190 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源调度器 高性能计算 学习程序 学习系统 解析 分布式学习 图形处理器 环境变量 集中管理 学习过程 用户资源 运算效率 资源分配 有效地 插件 多块 分配 学习 回收 进程 | ||
本发明提供一种基于资源调度器的深度学习系统及其方法,包括:多个高性能计算节点,每个高性能计算节点包含多块图形处理器;还包括:资源调度器和深度学习框架,其中,资源调度器用于根据用户所提需求,从多个高性能计算节点中选取所需要的资源分配给用户;通过解析插件解析所述资源调度器分配给用户资源的环境变量,获取相应的参数;深度学习框架根据所述参数形成一个运行的进程,从而开始执行深度学习程序;在深度学习程序完成之后,所述资源调度器回收所有分配的资源,从而完成整个深度学习过程。本发明为各类深度学习框架提供一个整体的集中管理的系统,有效地提高了分布式学习框架的运算效率。
技术领域
本发明涉及人工智能深度学习技术领域,尤其涉及一种基于资源调度器的深度学习系统及其方法。
背景技术
物联网和移动互联网时代的到来,数据产生以各类形式来源于生产生活的方方面面,例如:感知器,日志文件,emails,社交媒体,各类图片和视频等等。据估计当今80%的数据是无结构化的,无结构化的数据正以15倍于结构化的数据增长,预计到2020年全球数据总量将达到40zettabytes(1021bytes),人类已经真正步入了一个以数据为中心的时代。传统上,HPC(高性能计算集群)与解决大规模科学计算和大数据应用紧密结合。HPC天然就拥有一整套完整的、成熟的、高度优化的针对高性能计算的家族体系技术。例如:专03有的高性能优化传递网络(InfiniBand,IBM Blue Gene interconnects),高性能消息传递库(MPI),丰富的面向各类体系结构加速的数学计算库(BLAS,LAPACK),高效的并行文件存储系统(Lustre,Parastor)以及将各类软件组合在一起的调度器(Slurm,LSF)。
已发展成熟的高性能计算适配于以深度学习为代表的强调大数据计算的算法,以高性能计算集群的相关设施为基础,针对人工智能与机器学习方面的需求,目前我们需要解决的首要问题是如何使调度器适配于分布式深度学习框架,从而对大规模的数据进行深度学习方面的学习与训练。
发明内容
为解决上述问题,第一方面,本发明提供一种基于资源调度器的深度学习系统,包括:多个高性能计算节点,每个高性能计算节点包含多块图形处理器;还包括:资源调度器和深度学习框架,其中,资源调度器用于根据用户所提需求,从多个高性能计算节点中选取所需要的资源分配给用户;通过解析插件解析资源调度器分配给用户资源的环境变量,获取相应的参数;深度学习框架根据参数形成一个运行的进程,从而开始执行深度学习程序;在深度学习程序完成之后,资源调度器回收所有分配的资源,从而完成整个深度学习过程。
优选地,解析插件为应用容器引擎,应用容器引擎包括Singularity、Shifter或Docker。
优选地,通过预编写的解析插件解析资源调度器分配给用户资源的环境变量,获取相应的参数步骤包括:通过预编写的解析插件解析资源调度器分配给用户资源的环境变量SLURM_JOB_NODELIST和SLURMD_NODENAME,获取相应的参数cluster,job_name,task_index;深度学习框架根据参数cluster,job_name,task_index形成一个运行的进程,从而开始执行深度学习程序。
优选地,高性能计算节点的数量为48个,每个高性能计算节点包含8块图形处理器。
优选地,资源调度器为Slurm资源调度器。
优选地,深度学习框架为TensorFlow深度学习框架。
第二方面,本发明提供一种基于资源调度器的深度学习方法,包括以下步骤:资源调度器根据用户所提需求,从多个高性能计算节点中选取所需要的资源分配给用户;通过预编写的解析插件解析资源调度器分配给用户资源的环境变量,获取相应的参数;深度学习框架根据参数形成一个运行的进程,从而开始执行深度学习程序;在深度学习程序完成之后,资源调度器回收所有分配的资源,从而完成整个深度学习过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810668856.4/2.html,转载请声明来源钻瓜专利网。