[发明专利]一种多节点分布式训练方法、装置、设备及可读介质有效

专利信息
申请号: 202011362143.9 申请日: 2020-11-28
公开(公告)号: CN112463056B 公开(公告)日: 2023-06-09
发明(设计)人: 赵涟水;吴韶华 申请(专利权)人: 苏州浪潮智能科技有限公司
主分类号: G06F3/06 分类号: G06F3/06;G06N20/00
代理公司: 北京连和连知识产权代理有限公司 11278 代理人: 张涛;张元
地址: 215100 江苏省苏州市吴*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 节点 分布式 训练 方法 装置 设备 可读 介质
【说明书】:

发明公开了一种多节点分布式训练方法,包括:在每个节点上分别建立独立的训练计算图,通过训练计算图覆盖每个节点内的全部GPU和CPU,并将每个节点的CPU加入到深度学习模型分布式训练框架中;将主节点GPU中的初始训练参数拷贝到主节点CPU中,并将主节点CPU中的初始训练参数发送到其他节点的CPU上;将其他节点的CPU接收的初始训练参数拷贝到各自节点的GPU上,通过训练计算图对梯度进行规约操作,并将规约后得到的一级梯度拷贝到各自节点的CPU上;以及对各自节点的CPU中一级梯度再次进行规约,并将规约后得到的二级梯度拷贝到各自节点的GPU中。本发明还公开了对应的装置、计算机设备和可读存储介质。本发明通过结合horovod和replicated两种训练模式的优点,提高训练效率。

技术领域

本发明涉及存储技术领域,尤其涉及一种多节点分布式训练方法、装置、设备及可读介质。

背景技术

深度学习模型训练是人工智能产品落地的一个重要环节,随着训练数据和模型结构的扩大,将计算加速器(如英伟达GPU等)用于深度学习模型训练是一种现在和未来流行的趋势。同时,大规模分布式训练也极大地加速了深度学习模型的训练速度,比如用单个英伟达NGX-2节点(其中含有16个V100 GPU),模型bert_large耗时3天;用16个DGX-2节点,耗时4小时;用64个DGX-2,耗时67分钟。

在做分布式训练时,一种常见的分布式训练框架是horovod,其作用是包括两点:训练前统一训练参数、在训练中的每一步对梯度做规约操作。因其使用的简洁性和良好的扩展性,horovod在分布式训练中非常流行,但是它与其它方法的性能比较一直没有相关研究。经最新的单节点测试表明,在英伟达8个GPU-T4上,horovod和replicated的性能没有明显差异,但是在8个更高计算力的GPU-V100上,replicated的性能可以比horovod高达30%。

现有技术一是在每个节点内的每一个GPU上,都有同样的训练计算图,每一个GPU由不同的进程控制,在开始训练之前,所有GPU上的训练参数通过horovod的广播操作来统一;在训练中的每一步,每个GPU上都会计算出各自的梯度,通过horovod中的allreduce操作来对所有GPU上的梯度进行规约,实现每个GPU上都得到相同的规约梯度。现有技术一的缺点在于随着分布式规模的扩大,单个GPU上的性能会下降很快,其扩展性变差,比如在GPU-V100上,replicated可比horovod的性能高30%。

现有技术二是replicated训练模式,即在每个节点内都建立一张训练计算图,其覆盖节点内的所有GPU。在训练中每一步,GPU上的梯度规约可以通过两种方式进行操作,一种是add_n,即在每一个GPU上将其它GPU上的梯度都拷贝过来,再进行求和或求平均;另一种是通过GPU上的ncclallreduce来进行规约。现有技术二的缺点在于在大规模分布式情况下,比如1000多个节点,如果用add_n来对梯度进行规约,单个GPU上的显存会出现不足的情况;如果用ncclallreduce来做规约,在某些情况下,其性能会不如add_n。

发明内容

有鉴于此,本发明实施例的目的在于提出一种多节点分布式训练方法、装置、设备及可读介质,通过结合horovod和replicated两种训练模式的优点,单节点内使用replicated的分布式训练模式以得到更高的性能,同时在节点间使用horovod以克服节点数增多时replicated导致单GPU显存不足的问题。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011362143.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top