[发明专利]一种深度学习模型的训练方法及装置有效
申请号: | 202010167460.9 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111382844B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 刘宇东 | 申请(专利权)人: | 华南师范大学 |
主分类号: | G06N3/098 | 分类号: | G06N3/098;G06N3/0455;G06N3/084;G06F40/58 |
代理公司: | 西安研创天下知识产权代理事务所(普通合伙) 61239 | 代理人: | 郭璐 |
地址: | 510631 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 深度 学习 模型 训练 方法 装置 | ||
本发明公开一种深度学习模型的训练方法及装置将模型的计算过程与参数更新过程解耦合,以层为单位更新参数,更细粒度地进行训练,在一次迭代过程中,模型中一层参数的梯度值计算完成后,不需要再等待模型中的所有层都结束后再同一更新参数,而是立即将该层的梯度值上传至参数服务器,参数服务器咋接收到所有节点上传的该层的梯度值后,更新该层参数,然后将该层更新后的参数下发至各节点,当模型中所有层的参数都更新完成后,本次迭代结束,开始下一次迭代,这样将一部分计算过程和通信过程并行起来,使计算可以同时进行,重叠计算与通信时间,从而达到了缩短通信时间的目的。
技术领域
本发明属于数据处理技术领域,具体涉及一种深度学习模型的训练方法及装置。
背景技术
深度学习是业界逐渐成为主流的计算和机器学习实现方法,可被用于图像、语音、视频、机器翻译等多种场景。以机器翻译为例,基于神经网络的机器翻译的效果获得明显提升,近年来得到不断发展。目前在某些语种和场景下,译文质量甚至可以达到人工翻译的水平。
但是,由于深度神经网络模型本身的训练过程一般又会涉及很大量的计算,因此往往需要较长的训练周期,例如,使用3000万的训练数据在单个图形处理器(GPU)上一般需要训练20天以上,才能得到一个初步可用的模型。因此,如何缩短模型训练的周期,快速支持各个业务场景是迫切需要解决的技术难题。
对于此,业界有多种业己成熟的深度学习框架,为了提高训练效率,实用了分布式技术来进行模型训练,分布式训练方法包括数据并行和模型并行两种模式,模型并行难以保持各节点的负载均衡,且产生的通信开销较大,而数据并行可分为同步数据并行和异步数据并行,虽然同步数据并行可以保证模型一致收敛,但却存在着严重的通信瓶颈问题,影响通信时间的主要因素有以下两点:
(1)计算节点与参数服务器之间通信的数据量,神经网络模型在训练时,计算节点与参数服务器之间需要通信的数据为所有参数的梯度值,数据量与模型的参数量成正比,而随着任务场景的越来越复杂,模型的参数规模越来越大,某些大型神经网络的参数多大数亿,训练模型时在通信阶段消耗的时间不容小觑,而在一次迭代时间内,所有计算节点都要与参数服务器进行通信,随着计算节点的增加,需要通信的数据量也会线性增长。
(2)网络带宽,一般个计算节点间都通过以太网相连,常用的以太网带为1Gbps和10Gbps;当通信的数据量较大时,分布式环境中的网络带宽也会成为导致通信瓶颈的重要原因。
发明内容
本发明针对上述存在的技术问题,本发明从改变参数更新方式和降低通信的数据量出发,提出了一种能降低通信时间,缓解通信瓶颈问题的深度学习模型的训练方法及装置。
本发明采用的技术方案:
一种深度学习模型的训练方法,所述方法包括以下步骤:
步骤S1:参数服务器将训练样本集等分为与计算节点相同的多个训练样本子集,并初始化模型参数,将训练样本子集和模型参数发送至各计算节点,每个计算节点上均保存有一个模型副本;并设置最大迭代轮次、每次训练的数量批次、学习率、量化区间数及参数平均间隔;
步骤S2:判断当前训练轮次是否达到设置的最大训练轮次,若未达到,则进入下一步骤;否则结束训练;
步骤S3:各计算节点查询本地训练样本子集中是否存在未训练的数据,若存在则进入下一步骤;否则本轮训练结束,将训练轮次加1转到步骤S2;
步骤S4:各计算节点从本地训练样品子集中获取一批数据,并采用随机梯度下降迭代算法对模型迭代训练,计算出当前层参数的梯度,将梯度进行量化、编码,然后计算量化误差并保存在本地;
步骤S5:各计算节点将量化后的梯度上传至参数服务器,参数服务器在接收到所有节点的梯度后,将量化梯度进行平均并重新编码,然后向各计算节点发送平均后量化梯度;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南师范大学,未经华南师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010167460.9/2.html,转载请声明来源钻瓜专利网。