[发明专利]一种神经网络分布式训练方法、装置、设备及存储介质在审

申请号：	202011130809.8	申请日：	2020-10-21
公开（公告）号：	CN112288083A	公开（公告）日：	2021-01-29
发明（设计）人：	周宇浩;叶庆;张海伦	申请（专利权）人：	周宇浩
主分类号：	G06N3/08	分类号：	G06N3/08
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	王婷婷
地址：	610065 四川省***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种神经网络分布式训练方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供了一种神经网络分布式训练方法、装置、设备及存储介质，涉及机器学习技术领域。该方法改进了分布式神经网络的训练架构，提高分布式训练中各个节点的计算资源利用率，包括：针对集群中的每个节点，建立同步进程以及与同步进程并行运行的训练进程；节点根据同步进程的状态信息，确定训练进程的第N个训练周期；在第N个训练周期内，节点对目标神经网络模型进行训练，得到本地梯度；节点累加本地梯度，得到累计梯度；节点在训练进程中进行第N+1个训练周期的训练时，在同步进程中与其他节点同步累计梯度，计算获得第一平均梯度；在节点在同步进程中利用第一平均梯度更新第N个训练周期结束时的目标神经网络模型的参数。

技术领域

本申请涉及机器学习技术领域，特别是涉及一种神经网络分布式训练方法、装置、设备及存储介质。

背景技术

基于大型数据集对神经网络进行训练在多个领域获得令人印象深刻的性能表现，例如：在图像识别、自然语言处理，欺诈检测和推荐系统等领域利用大型数据集训练神经网络提高了应用的准确性。但基于大型数据集训练神经网络对计算设备的性能要求很高，单个计算设备很难完成。

分布式的神经网络训练使得训练复杂的神经网络，以及利用大规模训练数据集训练神经网络成为可能。但由于参与分布式训练的各节点存在性能差异，处理数据所需时间不同，因此存在部分节点资源浪费的情况。同时，节点之间存在不可避免的、耗时的信息交换过程，也导致了节点利用率低的问题。

发明内容

本申请实施例提供一种神经网络分布式训练方法、装置、设备及存储介质，改进分布式神经网络的训练架构，提高分布式训练中各个节点的计算资源利用率。

本申请实施例第一方面提供一种神经网络分布式训练方法，所述方法包括：

针对集群中的每个节点，建立同步进程以及与所述同步进程并行运行的训练进程；

所述节点根据所述同步进程的状态信息，确定所述训练进程的第N个训练周期，N为＞0的整数；

在所述第N个训练周期内，所述节点在所述训练进程中对目标神经网络模型进行训练，得到本地梯度；

所述节点累加多次训练所述目标神经网络模型得到的本地梯度，得到累计梯度；