[发明专利]一种深度学习框架的部署方法以及系统在审

申请号：	201810735143.5	申请日：	2018-07-06
公开（公告）号：	CN109189401A	公开（公告）日：	2019-01-11
发明（设计）人：	江训玉	申请（专利权）人：	曙光信息产业（北京）有限公司
主分类号：	G06F8/61	分类号：	G06F8/61
代理公司：	北京德恒律治知识产权代理有限公司 11409	代理人：	章社杲;卢军峰
地址：	100193 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	资源调度构建学习部署资源利用率弹性部署可伸缩性学习平台资源损耗作业请求低延时线程服务器统一
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种深度学习框架的部署方法以及及系统，该部署方法包括：在服务器上安装Docker；利用Docker容器获取构建深度学习框架的镜像；在深度学习框架中构建资源调度平台；通过资源调度平台执行深度学习作业请求。本发明的上述技术方案，其中基于Docker的实现是基于线程的，因此实现了可弹性部署深度学习平台，同时具有低延时可伸缩性强、资源损耗低资源利用率高、统一资源调度的优势。

技术领域

本发明涉及深度学习技术领域，具体来说，涉及一种深度学习框架的部署方法以及系统。

背景技术

对于传统的深度学习框架的部署方法，一般都是把深度学习的框架直接装在宿主机上，或者装在使用虚拟化技术虚拟出来的虚拟机上。

但是，这种传统的方法主要具有以下两方面的问题：第一，比较重量级，资源消耗大，资源利用不充分。存在这些问题的更大一部分原因是由于其本身实现限制的，传统的方法都是基于进程的虚拟化，启动和响应都相对较慢。第二，不能有效的统一资源调度。传统的方法，集群资源调度分配不均，资源利用率不高，且存在数据倾斜的问题，会使得集群节点的整体资源利用率偏低。

发明内容

针对相关技术中深度学习集成部署方法响应慢、开销大的问题，本发明提出了一种基于Docker容器技术的深度学习集成部署方法以及系统。

本发明的技术方案是这样实现的：

根据本发明的一个方面，提供了一种深度学习框架的部署方法，包括：

在服务器上安装Docker；

利用Docker容器获取构建深度学习框架的镜像；

在深度学习框架中构建资源调度平台；

通过资源调度平台执行深度学习作业请求。

根据本发明的实施例，Docker容器包括用于访问GPU的nvidia-Docker容器。

根据本发明的实施例，资源调度平台为Slurm资源调度平台、YARN资源调度平台、和MESOS资源调度平台之中的一种。

根据本发明的实施例，通过资源调度平台执行深度学习作业请求包括：创建Slurm文件，并将Slurm文件提交至Slurm资源调度平台进行调度；执行前处理，以创建作业所需的容器；运行创建的Slurm文件和容器，开始计算作业；执行后处理，以销毁容器。

根据本发明的实施例，执行前处理，以创建作业所需的容器包括：创建资源调度的前处理文件，前处理文件用于配置环境变量以及容器的创建。