[发明专利]一种用于深度学习框架分布式训练的方法和装置在审
申请号: | 201910631463.0 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110414687A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 王文潇 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 白天明;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 学习 方法和装置 服务器硬件 运行服务器 电力资源 端口地址 训练参数 节约 部署 存储 分配 配置 进程 | ||
本发明公开了一种用于深度学习框架分布式训练的方法。该方法包括:根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;采用在各个容器中的节点来运行分布式训练的相应的进程。通过上述方式,可以使用容器的方式来部署运行分布式训练的节点,然后通过设置容器的端口地址,可以在一台服务器中部署多个容器,从而在总体上减少了进行深度学习框架分布式训练所使用的服务器的总数,节约分布式训练所使用的服务器硬件资源,并且节约运行服务器所需的电力资源。还公开了对应的用于深度学习框架分布式训练的装置。
技术领域
本发明涉及深度学习技术领域,尤指一种用于深度学习框架分布式训练的方法和装置。
背景技术
在使用深度学习框架进行分布式训练时,通常至少需要使用Parameter Server节点(PS节点)和Worker节点。在使用一些种类的深度学习框架的时候,还会使用Scheduler节点或者Client节点。为了避免环境版本差异、不同应用相互影响、使用资源相互竞争等问题所造成的影像分布式训练正常运行的问题,常规的深度学习框架分布式训练需要将这些节点分配到多台服务器,各台服务器提供相应的服务。例如,将Worker0节点分配到第一服务器,将Worker1节点分配到第二服务器,并且将Worker2节点分配到第三服务器。由此可见,常规的分布式训练至少需要使用多台服务器。然而,以上述方式将训练任务部署到多台服务器会造成服务器硬件资源浪费以及运行服务器所需的电力资源的浪费。
发明内容
为了解决上述技术问题,本发明提供了用于深度学习框架分布式训练的方法和装置,其能够节约分布式训练所使用的服务器硬件资源,并且节约运行服务器所需的电力资源。
为了达到本发明目的,本发明实施例提供了一种用于深度学习框架分布式训练的方法,包括:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在各个容器中的节点来运行分布式训练的相应的进程。
在一个可选的实施例中,在将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前,该方法还包括:
将各个容器的IP地址写入到IP地址文件中,以供根据IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
在一个可选的实施例中,在将各个容器的IP地址写入到IP地址文件的步骤之前,该方法还包括:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,采用在各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括:
当在各个容器之中的第一容器中运行的第一节点请求在各个容器之中的第二容器中运行的第二节点的服务时,第二节点采用第一节点的公钥加密由第二节点计算出的服务数据并且将其发送给第一节点,由第一节点采用其私钥来解密由第二节点发送的服务数据。
在一个可选的实施例中,在将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后,并且在将各个容器的IP地址写入到IP地址文件的步骤之前,该方法还包括:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收其他容器的响应数据;
如果发送测试数据的第一容器采用为其生成的私钥解密得到在其他容器之中的第二容器的响应数据,则确定第二容器向第一容器发送数据是安全的。
在一个可选的实施例中,当深度学习框架是Mxnet框架的时候,将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910631463.0/2.html,转载请声明来源钻瓜专利网。