[发明专利]一种用于深度学习框架分布式训练的方法和装置在审
申请号: | 201910631463.0 | 申请日: | 2019-07-12 |
公开(公告)号: | CN110414687A | 公开(公告)日: | 2019-11-05 |
发明(设计)人: | 王文潇 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 白天明;解婷婷 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 学习 方法和装置 服务器硬件 运行服务器 电力资源 端口地址 训练参数 节约 部署 存储 分配 配置 进程 | ||
1.一种用于深度学习框架分布式训练的方法,其特征在于,包括:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在所述各个容器中的节点来运行分布式训练的相应的进程。
2.根据权利要求1所述的方法,其特征在于,在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤之前,所述方法还包括:
将各个容器的IP地址写入到所述IP地址文件中,以供根据所述IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
3.根据权利要求2所述的方法,其特征在于,在所述将各个容器的IP地址写入到IP地址文件的步骤之前,所述方法还包括:
生成各个容器的公钥以及配对的私钥,并且将每个容器的公钥发送给在分布式训练中使用的其他容器;
其中,所述采用在所述各个容器中的各个节点来运行分布式训练的相应的进程的步骤包括:
当在所述各个容器之中的第一容器中运行的第一节点请求在所述各个容器之中的第二容器中运行的第二节点的服务时,所述第二节点采用所述第一节点的公钥加密由所述第二节点计算出的服务数据并且将其发送给所述第一节点,由所述第一节点采用其私钥来解密由所述第二节点发送的服务数据。
4.根据权利要求3所述的方法,其特征在于,在所述将每个容器的公钥发送给在分布式训练中使用的容器的步骤之后,并且在所述将各个容器的IP地址写入到IP地址文件的步骤之前,所述方法还包括:
分别采用各个容器向将会在分布式训练中使用到的其他容器发送测试数据,并且接收所述其他容器的响应数据;
如果发送所述测试数据的第一容器采用为其生成的私钥解密得到在所述其他容器之中的第二容器的响应数据,则确定所述第二容器向所述第一容器发送数据是安全的。
5.根据权利要求1所述的方法,其中,当所述深度学习框架是Mxnet框架的时候,所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
为执行运行命令的容器分配一个用于负责调度的Scheduler节点、一个用于负责参数更新的PS节点和一个用于负责计算的Worker节点;并且为其他容器中分配一个Worker节点和一个PS节点。
6.根据权利要求1所述的方法,其中,当所述深度学习框架是Tensorflow框架的时候,所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的步骤包括:
分别在每个容器中部署一个用于负责参数更新的PS节点以及一个用于负责计算的Worker节点。
7.一种用于深度学习框架分布式训练的装置,其特征在于,包括存储器和处理器,
所述存储器用于存储计算机可读指令;
所述处理器用于执行所述计算机可读指令,以执行如下操作:
根据IP地址文件中存储的各个容器的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中,并且配置每个容器的中的训练参数;
采用在所述各个容器中的节点来运行分布式训练的相应的进程。
8.根据权利要求7所述的装置,其特征在于,在所述将在分布式训练中使用的各种类型的节点分别分配到各个容器中的操作之前,所述处理器还执行如下操作:
将各个容器的IP地址写入到所述IP地址文件中,以供根据所述IP地址文件中的IP地址,将在分布式训练中使用的各种类型的节点分别分配到各个容器中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910631463.0/1.html,转载请声明来源钻瓜专利网。