[发明专利]分布式训练的梯度压缩在审

申请号：	202110301784.1	申请日：	2021-03-22
公开（公告）号：	CN113435682A	公开（公告）日：	2021-09-24
发明（设计）人：	K·徐;R·戴尔蒙特	申请（专利权）人：	亚马逊技术股份有限公司
主分类号：	G06Q10/06	分类号：	G06Q10/06;G06N3/08;G06N3/04
代理公司：	上海专利商标事务所有限公司 31100	代理人：	钱慰民;张鑫
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	分布式训练梯度压缩
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

公开了用于在分布式系统内交换压缩渐变数据的技术。使用神经网络模型和与该神经网络模型相关联的一组权重，在分布式系统的第一个工作节点上计算出一个渐变集。具有小于阈值的值的渐变集中的每一个都被剪切，从而得到非剪切的数据元素和剪切的数据元素。生成映射，该映射指示渐变集中的哪些对应于非剪切的数据元素，哪些对应于剪切的数据元素.压缩数据基于非剪切数据元素生成。映射和压缩数据从分布式系统的第一个工作节点传输到第二个工作节点。

背景技术

人工神经网络(通常简称为神经网络)是具有基于生物神经网络的架构的计算系统。可以使用训练数据来训练神经网络，以学习如何执行特定任务，例如从图像或视频中识别或分类物理对象、活动、人物等。神经网络可包括多层处理节点。一层中的每一个处理节点可对由上一层的处理节点生成的输入数据执行计算，生成输出数据。例如，一个处理节点可执行一组算术运算(例如乘法和加法)以生成中间输出，或者对中间输出执行后处理运算以生成最终输出。一个神经网络可以包括数千个或更多的处理节点以及数百万个或更多的参数。

神经网络的架构可以包括输入层、输出层和许多常被称为隐藏层的中间层。每一层对上一层的输出执行计算，由最后一层(输出层)提供最终结果。从理论上讲，神经网络可以使用更多的层来执行更复杂的任务，例如语言翻译和识别(或分类)图像中的内容。具有三个以上隐藏层的神经网络有时被称为深度神经网络。深度神经网络可拥有许多隐藏层，比如，其数量可从五层高至一千多层之多。

神经网络可以使用中央处理单元(CPU)来执行计算。然而，CPU总是针对顺序计算而不是并行计算进行优化，因此可能会遇到响应时间差的问题。图形处理单元(GPU)已针对并行计算进行了优化，但不一定要将来自一个计算单元的结果直接提供给另一计算单元。通常，必须先将结果写入存储，然后再读取。尽管GPU的响应时间好于CPU，但仍然需要改善神经网络的执行时间。近来，已经开发了专用集成电路设备，例如神经网络处理器或加速器，可比CPU或GPU更高效地执行神经网络计算。这些设备采用的空间架构，其中算术逻辑单元(ALU)可将数据从一个单元直接传递到另一个单元，而在CPU和GPU所采用的时间架构中，ALU只能从存储层结构中获取数据，而不能彼此直接进行通信。

在训练神经网络执行特定功能时，在多次迭代中调整神经网络的参数(例如，其权重，代表不同处理节点之间的连接强度)。训练过程包括向神经网络提供训练数据，该训练数据可包括训练输入数据和可以支持特定决策(例如，图像中的对象可检测或不可检测)的相应参考输出数据。神经网络可以执行计算将权重与训练输入数据组合生成训练输出数据，并可将训练输出数据与参考输出数据进行比较生成误差数据(代表两者之间的差异)。在训练时，可将不同的训练输入数据提供给神经网络以生成不同的训练输出数据。可以基于某种目标来调整神经网络的权重，比如目标为训练输出数据与参考输出数据之间的差异最小化。为了提高神经网络生成正确决策的可能性，通常使用涵盖大量运算场景的海量训练输入数据来训练神经网络。其结果是，训练操作通常需要大量的时间和计算资源。

附图说明

参考附图说明了根据本发明的各种实施典型，其中：

图1用于神经网络的计算流模型的示例；

图2用于训练神经网络的训练过程的示例；

图3可执行神经网络训练过程的分布式系统的示例；

图4A-4C各种由分布式系统执行的训练步骤的示例；

图5A-5C各种由分布式系统执行的训练步骤的示例；

图6A和图6B分别对应于图4A-4C和图5A-5C的时序图的示例；

图7用于神经网络模型训练的时序图的示例；

图8在发送工作节点与接收工作节点之间的梯度集通信的示例；

图9在分布式系统内交换压缩梯度数据的步骤的示意图示例；

图10在分布式系统内发送压缩梯度数据的时序图示例；