[发明专利]一种多节点分布式训练方法、装置、设备及可读介质有效
申请号: | 202011362143.9 | 申请日: | 2020-11-28 |
公开(公告)号: | CN112463056B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 赵涟水;吴韶华 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F3/06 | 分类号: | G06F3/06;G06N20/00 |
代理公司: | 北京连和连知识产权代理有限公司 11278 | 代理人: | 张涛;张元 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 节点 分布式 训练 方法 装置 设备 可读 介质 | ||
本发明公开了一种多节点分布式训练方法,包括:在每个节点上分别建立独立的训练计算图,通过训练计算图覆盖每个节点内的全部GPU和CPU,并将每个节点的CPU加入到深度学习模型分布式训练框架中;将主节点GPU中的初始训练参数拷贝到主节点CPU中,并将主节点CPU中的初始训练参数发送到其他节点的CPU上;将其他节点的CPU接收的初始训练参数拷贝到各自节点的GPU上,通过训练计算图对梯度进行规约操作,并将规约后得到的一级梯度拷贝到各自节点的CPU上;以及对各自节点的CPU中一级梯度再次进行规约,并将规约后得到的二级梯度拷贝到各自节点的GPU中。本发明还公开了对应的装置、计算机设备和可读存储介质。本发明通过结合horovod和replicated两种训练模式的优点,提高训练效率。
技术领域
本发明涉及存储技术领域,尤其涉及一种多节点分布式训练方法、装置、设备及可读介质。
背景技术
深度学习模型训练是人工智能产品落地的一个重要环节,随着训练数据和模型结构的扩大,将计算加速器(如英伟达GPU等)用于深度学习模型训练是一种现在和未来流行的趋势。同时,大规模分布式训练也极大地加速了深度学习模型的训练速度,比如用单个英伟达NGX-2节点(其中含有16个V100 GPU),模型bert_large耗时3天;用16个DGX-2节点,耗时4小时;用64个DGX-2,耗时67分钟。
在做分布式训练时,一种常见的分布式训练框架是horovod,其作用是包括两点:训练前统一训练参数、在训练中的每一步对梯度做规约操作。因其使用的简洁性和良好的扩展性,horovod在分布式训练中非常流行,但是它与其它方法的性能比较一直没有相关研究。经最新的单节点测试表明,在英伟达8个GPU-T4上,horovod和replicated的性能没有明显差异,但是在8个更高计算力的GPU-V100上,replicated的性能可以比horovod高达30%。
现有技术一是在每个节点内的每一个GPU上,都有同样的训练计算图,每一个GPU由不同的进程控制,在开始训练之前,所有GPU上的训练参数通过horovod的广播操作来统一;在训练中的每一步,每个GPU上都会计算出各自的梯度,通过horovod中的allreduce操作来对所有GPU上的梯度进行规约,实现每个GPU上都得到相同的规约梯度。现有技术一的缺点在于随着分布式规模的扩大,单个GPU上的性能会下降很快,其扩展性变差,比如在GPU-V100上,replicated可比horovod的性能高30%。
现有技术二是replicated训练模式,即在每个节点内都建立一张训练计算图,其覆盖节点内的所有GPU。在训练中每一步,GPU上的梯度规约可以通过两种方式进行操作,一种是add_n,即在每一个GPU上将其它GPU上的梯度都拷贝过来,再进行求和或求平均;另一种是通过GPU上的ncclallreduce来进行规约。现有技术二的缺点在于在大规模分布式情况下,比如1000多个节点,如果用add_n来对梯度进行规约,单个GPU上的显存会出现不足的情况;如果用ncclallreduce来做规约,在某些情况下,其性能会不如add_n。
发明内容
有鉴于此,本发明实施例的目的在于提出一种多节点分布式训练方法、装置、设备及可读介质,通过结合horovod和replicated两种训练模式的优点,单节点内使用replicated的分布式训练模式以得到更高的性能,同时在节点间使用horovod以克服节点数增多时replicated导致单GPU显存不足的问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011362143.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可拆卸的预制外墙板加固装置
- 下一篇:一种用于铝型材加工的氧化镀膜装置