[发明专利]一种深度学习框架的部署方法以及系统在审
申请号: | 201810735143.5 | 申请日: | 2018-07-06 |
公开(公告)号: | CN109189401A | 公开(公告)日: | 2019-01-11 |
发明(设计)人: | 江训玉 | 申请(专利权)人: | 曙光信息产业(北京)有限公司 |
主分类号: | G06F8/61 | 分类号: | G06F8/61 |
代理公司: | 北京德恒律治知识产权代理有限公司 11409 | 代理人: | 章社杲;卢军峰 |
地址: | 100193 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 资源调度 构建 学习 部署 资源利用率 弹性部署 可伸缩性 学习平台 资源损耗 作业请求 低延时 线程 服务器 统一 | ||
本发明公开了一种深度学习框架的部署方法以及及系统,该部署方法包括:在服务器上安装Docker;利用Docker容器获取构建深度学习框架的镜像;在深度学习框架中构建资源调度平台;通过资源调度平台执行深度学习作业请求。本发明的上述技术方案,其中基于Docker的实现是基于线程的,因此实现了可弹性部署深度学习平台,同时具有低延时可伸缩性强、资源损耗低资源利用率高、统一资源调度的优势。
技术领域
本发明涉及深度学习技术领域,具体来说,涉及一种深度学习框架的部署方法以及系统。
背景技术
对于传统的深度学习框架的部署方法,一般都是把深度学习的框架直接装在宿主机上,或者装在使用虚拟化技术虚拟出来的虚拟机上。
但是,这种传统的方法主要具有以下两方面的问题:第一,比较重量级,资源消耗大,资源利用不充分。存在这些问题的更大一部分原因是由于其本身实现限制的,传统的方法都是基于进程的虚拟化,启动和响应都相对较慢。第二,不能有效的统一资源调度。传统的方法,集群资源调度分配不均,资源利用率不高,且存在数据倾斜的问题,会使得集群节点的整体资源利用率偏低。
发明内容
针对相关技术中深度学习集成部署方法响应慢、开销大的问题,本发明提出了一种基于Docker容器技术的深度学习集成部署方法以及系统。
本发明的技术方案是这样实现的:
根据本发明的一个方面,提供了一种深度学习框架的部署方法,包括:
在服务器上安装Docker;
利用Docker容器获取构建深度学习框架的镜像;
在深度学习框架中构建资源调度平台;
通过资源调度平台执行深度学习作业请求。
根据本发明的实施例,Docker容器包括用于访问GPU的nvidia-Docker容器。
根据本发明的实施例,资源调度平台为Slurm资源调度平台、YARN资源调度平台、和MESOS资源调度平台之中的一种。
根据本发明的实施例,通过资源调度平台执行深度学习作业请求包括:创建Slurm文件,并将Slurm文件提交至Slurm资源调度平台进行调度;执行前处理,以创建作业所需的容器;运行创建的Slurm文件和容器,开始计算作业;执行后处理,以销毁容器。
根据本发明的实施例,执行前处理,以创建作业所需的容器包括:创建资源调度的前处理文件,前处理文件用于配置环境变量以及容器的创建。
根据本发明的实施例,执行后处理,以销毁容器包括:创建资源调度的后处理文件,后处理文件用于容器的销毁。
根据本发明的另一个方面,提供了一种深度学习框架的部署系统,包括:安装模块,用于在服务器上安装Docker;镜像模块,利用Docker容器获取构建深度学习框架的镜像;调度模块,用于在深度学习框架中构建资源调度平台;执行模块,用于通过资源调度平台执行深度学习作业请求。
根据本发明的实施例,Docker容器包括用于访问GPU的nvidia-Docker容器。
根据本发明的实施例,资源调度平台为Slurm资源调度平台、YARN资源调度平台、和MESOS资源调度平台之中的一种。
本发明的上述技术方案,其中基于Docker的实现是基于线程的,因此实现了可弹性部署深度学习平台,同时具有低延时可伸缩性强、资源损耗低资源利用率高、统一资源调度的优势,从而大大改善了传统方法的不足之处。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业(北京)有限公司,未经曙光信息产业(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810735143.5/2.html,转载请声明来源钻瓜专利网。