[发明专利]神经网络模型的分布式训练方法、装置及电子设备有效

申请号：	201911403480.5	申请日：	2019-12-30
公开（公告）号：	CN111160531B	公开（公告）日：	2023-09-22
发明（设计）人：	户忠哲;谭光明;姚成吉;田忠博;朱泓睿;张晓扬;肖俊敏	申请（专利权）人：	北京迈格威科技有限公司
主分类号：	G06N3/0464	分类号：	G06N3/0464;G06N3/084
代理公司：	北京超凡宏宇知识产权代理有限公司 11463	代理人：	何少岩
地址：	100000 北京市海淀区科***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	神经网络模型分布式训练方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种神经网络模型的分布式训练方法、装置及电子设备，该方法由分布式计算系统执行，包括：从分布式计算系统确定出第一数量的GPU作为第一目标GPU；基于训练样本集，通过第一目标GPU对初始神经网络模型进行迭代训练，直至达到预设的第一迭代次数，得到中间神经网络模型；从分布式计算系统确定出第二数量的GPU作为第二目标GPU；通过第二目标GPU对中间神经网络模型进行迭代训练，直至达到预设的第二迭代次数，得到最终神经网络模型；其中，第二数量大于第一数量，和/或，第二目标GPU单次迭代处理的训练样本数量大于第一目标GPU单次迭代处理的训练样本数量。本发明缩短神经网络模型训练时间的同时，使训练后的神经网络模型精度丢失较少。

技术领域

本发明涉及深度学习技术领域，尤其是涉及一种神经网络模型的分布式训练方法、装置及电子设备。

背景技术

随着深度学习技术的发展，深度学习广泛应用于计算机视觉，语音识别，自动驾驶等领域，这些应用产生越来越多的训练数据，更大的训练数据集大大增加了神经网络模型的训练时间。为了尽可能地缩短神经网络模型的训练时间，大多数研究人员提出了分布式同步Stochastic Gradient Descent(SGD)训练方法对神经网络模型进行分布式训练，即在神经网络模型训练过程中同时使用多个GPU大批量处理训练样本，分布式训练方式为加速训练过程的收敛提供了一个潜在的解决方案。然而，基于分布式同步SGD训练方法也带来了一个严重的问题：在训练过程中，batchsize(即单次迭代处理的训练样本数量)越大，神经网络模型的精度丢失越严重。因此，目前对于神经网络模型的大批量分布式训练方式，还存在由于batchsize过大导致训练后的神经网络模型精度丢失较多的问题。

发明内容

有鉴于此，本发明的目的在于提供一种神经网络模型的分布式训练方法、装置及电子设备，能够在缩短神经网络模型的训练时间的同时，使训练后的神经网络模型的精度丢失较少。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种神经网络模型的分布式训练方法，所述方法由分布式计算系统执行，所述分布式计算系统包括多个GPU，所述方法包括：从所述分布式计算系统确定出第一数量的GPU作为第一目标GPU；基于训练样本集，通过所述第一目标GPU对初始神经网络模型进行迭代训练，直至达到预设的第一迭代次数，得到中间神经网络模型；从所述分布式计算系统确定出第二数量的GPU作为第二目标GPU；通过所述第二目标GPU对所述中间神经网络模型进行迭代训练，直至达到预设的第二迭代次数，得到最终神经网络模型；其中，所述第二数量大于所述第一数量，和/或，所述第二目标GPU单次迭代处理的训练样本数量大于所述第一目标GPU单次迭代处理的训练样本数量。

进一步，本发明实施例提供了第一方面的第一种可能的实施方式，其中，基于训练样本集，通过所述第一目标GPU对所述初始神经网络模型进行迭代训练，直至达到预设的第一迭代次数的步骤，包括：在对所述初始神经网络模型进行迭代训练时，采用所述第一目标GPU对所述训练样本集进行数据并行处理，在预设迭代次数内将所述初始神经网络模型的初始学习率调整至预设的最大学习率；其中所述预设迭代次数小于所述第一迭代次数；继续对所述初始神经网络模型进行迭代训练，并使所述初始神经网络模型在迭代训练中保持所述预设的最大学习率不变，直至达到预设的第一迭代次数。

进一步，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述通过所述第二目标GPU对所述中间神经网络模型进行迭代训练，直至达到预设的第二迭代次数的步骤，包括：根据预设的等效衰减学习率算法确定所述中间神经网络模型的第一学习率；采用第二目标GPU对所述训练样本集进行数据并行处理，并使所述中间神经网络模型基于所述中间神经网络模型的第一学习率和预设的学习率衰减算法进行迭代训练，直至达到预设的第二迭代次数。

进一步，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述第二目标GPU单次迭代处理的训练样本数量大于所述第一目标GPU单次迭代处理的训练样本数量；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京迈格威科技有限公司，未经北京迈格威科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911403480.5/2.html，转载请声明来源钻瓜专利网。

上一篇：信息处理方法及装置、增强现实设备和可读存储介质
下一篇：数据展示方法及装置、电子设备和计算机可读存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]神经网络模型的分布式训练方法、装置及电子设备有效

专利文献下载