[发明专利]一种网络重置方法及基于此的加速分布式训练方法和系统在审

申请号：	202010055765.0	申请日：	2020-01-17
公开（公告）号：	CN113138831A	公开（公告）日：	2021-07-20
发明（设计）人：	张翔宇;张曼妮;李杨;孙军欢	申请（专利权）人：	深圳致星科技有限公司
主分类号：	G06F9/455	分类号：	G06F9/455;G06N20/00;H04L12/06;H04L12/24;H04L29/08
代理公司：	深圳市力道知识产权代理事务所(普通合伙) 44507	代理人：	何姣
地址：	518000 广东省深圳市南山区粤海街道高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网络重置方法基于加速分布式训练系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种网络重置方法及基于此的加速分布式训练方法和系统。其中，首先提供一种分布式训练过程中训练数据传输网络重置的方法，通过使所有运行着训练进程的虚拟节点构成一个逻辑环以及从逻辑环的起始节点起向下游的正向收集全局RDMA网络配置和从终止节点起向上游的反向同步全局RDMA网络配置过程，使各节点训练进程都获得全局RDMA网络配置，并根据其重置训练集群中的训练数据传输网络为RDMA网络。在此基础上，进一步提供一种基于高效通信网络的加速分布式训练方法、系统，在分布式训练过程中重置训练数据传输网络为RDMA网络，利用RDMA网络高效传输训练数据，克服训练数据传输通信瓶颈问题，提升训练效率。

技术领域

本发明涉及AI模型分布式训练技术领域；具体地，涉及一种网络重置方法及基于此的加速分布式训练方法和系统。

背景技术

近年来，人工智能，特别是深度学习，在图像识别，语言处理等领域取得重大突破，并且开始广泛应用于商业活动中。深度学习能够取得如此重大突破的一个关键原因是深度学习在训练过程中处理了大量样本，从样本中学习到样本之中包含的众多特征。若是仅使用单台服务器运行深度学习训练，那么其处理完大量样本过程中将耗费大量时间，严重影响工作效率。因此，既有必要将训练扩展到多台服务中进行，每台服务器处理不同的样本，加快样本处理速度，缩短深度学习训练时间，这也就是最近兴起的分布式训练。深度学习可以理解为是基于梯度的学习：深度学习训练过程中处理样本，经过一系列复杂运算，可以得到深度学习过程中一个至关重要的中间结果梯度。在分布式训练过程中的关键即每台服务器需要将其计算得到的梯度分享给其他服务器。

由于要保证各节点(例如前面述及的服务器节点)上的梯度等参数的一致性，一个用于分布式训练的服务器集群，其部署运行环境、启动训练过程中都有着大量网络配置、分布式训练配置等工作，需要运维人员和算法工程师们手动实施。如此方法配置，是一定会严重制约其部署和训练效率。

容器技术的出现，不仅能够实现容器集群的快速部署，同时它也是一种轻量化的解决方案，且能够有效整合和管理着裸机资源。Kubernetes即为一种典型的基于容器技术的用于管理多主机上的容器化的应用。以Kubernetes平台运行分布式机器学习训练任务为例，Kubernetes不仅大大简化深度学习环境部署过程，还能够实现分布式训练的快速启动，最大限度减少运维人员和算法工程师们手动操作，进而提高训练效率。

不同于在物理服务器集群上部署分布式训练，在如Kubernetes平台等的这类容器云平台部署分布式训练任务时，通常是先配置分布式训练任务，再依据其资源需求向平台申请资源和和为分布式训练任务中的各子任务创建对应的虚拟节点(即容器或容器组，例如Pod——Kubernetes平台的最小调度单位，其实质上为包含一个或者多个容器的逻辑主机)，以上也即是将分布式训练任务调度到容器云平台的过程。此外，为保障训练过程中各虚拟节点上的子任务间训练参数等的一致性，还需要为之生成一系列分布式训练配置；例如，在Kubernetes平台部署分布式tensorflow任务时，即是通过Pod的环境变量TF_CONFIG实现各Pod上任务训练参数的一致性的。因为是设置分布式训练任务在前而用于训练的容器集群创建在后，所以配置中用于虚拟节点间互联通信的网络连接配置，并非虚拟节点实际的网络地址这样网络配置信息，而仅是一个连接访问服务的字符串；而上述虚拟节点间的通信，实际上是通过上述的连接访问服务字符串请求容器云平台提供的连接访问服务实现的；这其中的虚拟节点间通信，自然也包括后续的训练过程中的各虚拟节点间的互联通信。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司，未经深圳致星科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010055765.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种姜黄素复合物及其制备方法和检测方法
下一篇：光刻胶涂覆装置及光刻胶涂覆方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F9-00 程序控制装置，例如，控制器
G06F9-02 .应用有线连接的，例如，插头板
G06F9-04 .应用仅含程序指令的记录载体的
G06F9-06 .应用存入的程序的，即应用处理设备的内部存储来接收程序并保持程序的
G06F9-22 ..微控制或微程序装置
G06F9-30 ..执行机器指令的装置，例如指令译码

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种网络重置方法及基于此的加速分布式训练方法和系统在审

专利文献下载