[发明专利]面向分布式深度学习的受限权重同步并行模型优化方法在审
申请号: | 202210421355.2 | 申请日: | 2022-04-21 |
公开(公告)号: | CN114780340A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 朱伟波;薛梅婷;张纪林;赵乃良;徐沛然;姚蕊;孙超 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34;G06K9/62;G06N20/00 |
代理公司: | 杭州昊泽专利代理事务所(特殊普通合伙) 33449 | 代理人: | 黄前泽 |
地址: | 310018*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 分布式 深度 学习 受限 权重 同步 并行 模型 优化 方法 | ||
本发明公开了面向分布式深度学习的受限权重同步并行模型优化方法。现有同步、异步结合模型会产生异步缺陷问题。本发明引入梯度聚合进程,若模型梯度聚合是全局同步方式,则将该轮模型梯度聚合的各计算节点的本地模型梯度求和取平均得到新全局模型梯度,并返回给所有计算节点;若模型梯度聚合是局部同步方式,则参数服务器节点根据各计算节点参与的局部同步次数计算出权重因子,然后计算参与局部同步的所有计算节点的模型梯度加权平均数,并将模型梯度加权平均数作为参与局部同步的各计算节点的新局部模型梯度。本发明在保证训练速度的前提下,解决滞后问题,提高模型训练的整体性能,并保证模型训练的准确率。
技术领域
本发明属于分布式深度学习加速技术领域,具体是一种面向分布式深度学习的受限权重同步并行模型优化方法。
背景技术
随着计算机软硬件技术的不断发展,深度学习技术已成为人工智能领域的核心研究内容之一,在数字化信息识别分析等领域获得了广泛应用,利用深度学习算法处理大规模数据日渐成为许多现代应用服务的核心场景。然而,对于从TB级别转向PB量级并正向ZB量级转变的数据以及庞大规模的复杂深度学习模型训练,使用单一计算节点来执行往往需要数天或数周时间。因此,分布式深度学习系统逐渐成为大数据时代下解决大规模深度学习问题的研究热点。
大多数的分布式深度学习系统架构基于迭代式、参数服务器或数据流实现。通信是多节点协作训练的必要环节,对于提高分布式深度学习效率具有重要作用,提高节点间通讯效率的关键在于提高计算时间占比。因此需要合理的通信机制以及合理的模型聚合方法,从而更加高效地训练出模型。
通信机制包含同步机制和异步机制两类。
采用同步通信机制的典型模型有整体同步并行模型(Bulk SynchronousParallel,BSP),在该模型中,每个计算节点会根据前一次迭代生成的全局梯度的本地副本进行相同的迭代,计算节点完成一轮迭代后,将本地梯度上传至参数服务器节点,等待参数服务器返回全局梯度后进入下一次迭代;BSP模型中参数服务器节点需等待所有计算节点的本地梯度,将其聚合生成全局梯度传送给各计算节点。正因为参数服务器节点需要等待所有计算节点完成该轮的计算,因此导致性能较好的计算节点无法进入下次迭代而进入阻塞等待状态,从而浪费了计算资源,有效计算时间占比很低。并且,随着计算节点数量的增加,在任何给定迭代中至少出现一个性能滞后的计算节点的概率也将增大。此外,导致计算节点性能滞后的潜在原因(如硬件或网络故障等)通常是无法预测的。
采用异步通信机制的典型模型有纯异步并行模型(Asynchronous Parallel,AP),在该模型中,每个计算节点完成一轮迭代后,立即与参数服务器进行通信,将本地梯度上传至服务器并拉取最新的全局梯度;而参数服务器也无需等待所有计算节点的本地梯度,而是每收到一个计算节点上传的梯度后就与全局梯度进行聚合,生成新的全局梯度并将全局梯度传送给该计算节点。由于每个计算节点性能存在差异,计算节点在本地的迭代次数变得不可控,即随着时间往后推移,性能较好的计算节点进行的迭代次数会远大于性能滞后的计算节点,导致最终的深度学习模型陷入局部最优解,从而无法保证其训练的准确性。由于训练结果并不一定是准确的,从而导致模型为求最优解而陷入不断的迭代中,即严重影响了模型的收敛速度甚至无法收敛。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210421355.2/2.html,转载请声明来源钻瓜专利网。