[发明专利]一种基于神经网络的参数更新方法、分布式训练平台系统在审
申请号: | 202010110959.6 | 申请日: | 2020-02-21 |
公开(公告)号: | CN113298222A | 公开(公告)日: | 2021-08-24 |
发明(设计)人: | 张曼妮;李杨;张翔宇;孙军欢 | 申请(专利权)人: | 深圳致星科技有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06T1/20 |
代理公司: | 深圳市力道知识产权代理事务所(普通合伙) 44507 | 代理人: | 何姣 |
地址: | 518000 广东省深圳市南山区粤海街道高新*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 参数 更新 方法 分布式 训练 平台 系统 | ||
本发明提供一种基于神经网络的参数更新方法、分布式训练平台系统。其中,根据设备内和设备间GPU的分阶段聚合,以及在设备间首节点GPU(Leader GPU)采用高效的Allreduce方式进行参数聚合,以避免中心化的PS(Parameter Server)参数聚合通信模型对多机多GPU集群可扩展性的限制;另外也可避免去中心化的Ring‑Allreduce方式在超大规模GPU集群需求下数据通信存在延时开销的问题。
技术领域
本发明涉及深度学习领域中深度学习神经网络的参数更新技术;具体地,涉及一种基于神经网络的参数更新方法、分布式训练平台系统。
背景技术
近年来,人工智能,特别是深度学习,在图像识别,语言处理等领域取得重大突破,并且开始广泛应用于商业活动中。深度学习能够取得如此重大突破的一个关键原因是深度学习在训练过程中处理了大量样本,从样本中学习到样本之中包含的众多特征。
人工神经网络(Artificial Neural Network,ANN,以下简称神经网络)在本领域被提及时,其通常是指由一定数量的高度互联的单一处理单元(processing elements,也即节点(nodes))组成的计算系统;其中,这些处理单元通过其对外部输入的动态状态响应来处理信息。其中,深度神经网络(Deep Neural Network,DNN)是人工神经网络中的一种;其在输入层和输出层之间具有多个隐藏层。与浅层ANN相似,深度神经网络能够对复杂的非线性关系建模。和大多数机器学习算法通过生成符合训练数据的模型进而在以生成的模型对输入数据进行预测一样,深度学习算法,也需要通过深度神经网络的模型训练,来找到符合的模型参数值,以使深度学习算法模型可以提供准确的预测。
其中,一种深度学习神经网络训练方法的过程,包括了前向传播(forwardpasspropagation)和后向传播(backpropagation)的使用。其中,前向传播通过的损失值(loss)来评估模型性能,而反向传播则用于生成对应当前权重参数的梯度。当输入数据输入神经网络时,它会通过网络逐层向前传播,直到到达输出层。将输出层的输出与使用损失函数得到的期望输出对比,并为输出层中的每个神经元计算一个误差值。将误差值后向传播,直至使每个神经元都有着一个关联的误差值,其将大致代表其对原始输出的贡献。反向传播使用这些误差值来计算对应网络中权重参数的损失函数梯度。而上述的梯度,被用于更新权重参数,并在其过程中最小化损失函数。
而深度神经网络模型的训练,通常采用数据并行的模式,即生成多份模型副本,并将样本分别输入上述各模型副本进行训练。那么,在训练过程中,则需要将为同一批次样本在不同模型副本项下生成的梯度进行梯度聚合,以实现该批次处理过程的迭代。目前,深度学习框架通常采用多GPU来加速的。而现有的参数聚合/梯度聚合方法,通常也是被用于多GPU训练场景的。事实上,一台典型的机器设备就可能包括多个本地GPU,它们通过PCIe总线或NVLink等其他标准的总线定向地与机器设备的CPU、网卡等网络设备连接;并且,其中的一些机器设备中,其本地GPU还若干个为一组分属于机器设备中不同的节点(例如NUMA节点);而一个NUMA节点,通常包括一个属于自己的CPU,以及内存条等。在生产环境下,为了提高训练效率,深度神经网络模型的训练往往更是部署在多台如前面所述的机器设备组成的集群上的。
在数据并行训练模式下,每一次迭代的参数更新(梯度聚合),特别是多机多卡(GPU卡)集群场景下的参数更新(梯度聚合),在现有技术中主要采用如下两种方式:
一、通过中心化的参数服务器(Parameter Server)承担了梯度的收集、平均和分发工作,基于上述通信模型的部署方式下,参数服务器的访问带宽容易成为瓶颈,严重影响多机多GPU集群的可扩展性;
二、去中心化的Ring-Allreduce方式,即一种基于环形拓扑的通信方式;在Ring-AllReduce方法中,通过其中的每个GPU都递次地向相邻GPU传送、收集相应的梯度片段以及同步收集的梯度片段,克服上述方式中参数服务器的通信瓶颈问题,但是在超大规模GPU集群场景下数据通信存在着很大的延时开销。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳致星科技有限公司,未经深圳致星科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010110959.6/2.html,转载请声明来源钻瓜专利网。