[发明专利]训练深度神经网络时的利用压缩权重的直接计算在审

申请号：	202080029838.7	申请日：	2020-03-30
公开（公告）号：	CN114008630A	公开（公告）日：	2022-02-01
发明（设计）人：	奚锦文;B·普蒂佩迪	申请（专利权）人：	微软技术许可有限责任公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/063;G06N3/08
代理公司：	北京市金杜律师事务所 11256	代理人：	马明月
地址：	美国华***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练深度神经网络利用压缩权重直接计算
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

包括参数服务器的分布式训练系统被配置为根据聚类算法来压缩权重度量，然后权重矩阵的压缩表示可以被分发给训练工作方。压缩表示可以包括矩心索引矩阵和矩心表，其中矩心索引矩阵的每个元素对应于对应的权重矩阵的元素并且包括对矩心表的索引，并且其中矩心表的每个元素包括矩心值。在另外的示例方面，通过执行聚集缩减相加操作，该聚集缩减相加操作累加与同一矩心值相对应的训练数据矩阵的所有元素以生成部分总和，将每个部分总和乘以其对应矩心值，并且对生成乘积求和，训练工作方可以直接从权重矩阵和训练数据矩阵的压缩表示来计算激活结果。

背景技术

深度神经网络(DNN)是在输入层与输出层之间具有多个层的人工神经网络(ANN)。当前对于DNN的趋势是尺寸越来越大，并且当前DNN可能由数百万个参数表征，每个参数都以32位浮点数据格式表示。训练这样的DNN可能具有挑战性，因为实现可扩展解决方案可能很困难或不可能。典型的解决方案试图通过利用多个训练工作方(worker)来开发数据、模型和/或数据模型并行性，每个工作方与其他工作方并行工作。实现这样的解决方案的系统可以利用逻辑上和/或物理上分离的训练工作方，并且通常被称为分布式训练系统。

分布式训练系统通常通过负责将训练问题分成离散作业的中央服务器(或多个服务器)起作用，每个作业适合由单个训练工作方进行计算。每个作业随后被分发给工作方用于计算，工作方在完成后将计算结果发送回服务器。分布式训练系统允许轻松扩展计算能力，因为增加计算能力只需要增加更多的训练工作方。然而，协调多个训练工作方的活动所需要的通信带宽没有以相同的速度扩展。

数据压缩技术可以应用于系统服务器与训练工作方之间的通信以减少开销并且提高可扩展性。虽然数据压缩有助于减少通信开销和带宽要求，但每个工作方的进一步任务是解压缩所接收的数据。

发明内容

提供本发明内容以便以简化的形式介绍在以下“具体实施方式”中进一步描述的概念的选择。本发明内容不旨在确定所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护的主题的范围。

提供方法、系统和计算机程序产品以提高深度神经网络的训练和深度神经网络生成推理的效率。在示例方面，提供了参数服务器和多个训练工作方，其中训练工作方被配置为利用压缩权重表示来直接执行训练。在另一方面，1)参数服务器初始化权重矩阵并且生成其压缩表示；2)每个工作方接收训练数据(即，用于训练目的的DNN输入数据，而不是生成推理)和权重矩阵的(多个)压缩表示，并且使用前向和后向路径来计算梯度矩阵，3)每个工作方将所计算的梯度矩阵传输回到参数服务器，参数服务器更新全局权重矩阵，4)参数服务器压缩所更新的全局权重矩阵并且将它们传输到每个工作方，5)每个训练工作方利用新的训练数据从2)处重新开始并且计算梯度矩阵，直到损失收敛，并且直接使用所接收的压缩矩阵这样做。

在另外的示例方面，参数服务器被配置为根据聚类算法来压缩权重度量，由此将权重矩阵中的权重值分组成簇，其中簇矩心(centroid)此后可以表示该簇中的每个元素的权重。此后可以将权重矩阵的压缩表示分发给训练工作方。

在另一示例方面，权重矩阵的压缩表示可以包括矩心索引矩阵和矩心表，其中矩心索引矩阵的每个元素对应于对应权重矩阵的元素并且包括对矩心表的索引，并且其中矩心表的每个元素包括矩心值。

在另外的示例方面，通过执行聚集缩减相加(gather-reduce-add)操作，该聚集缩减相加操作累加与同一矩心值相对应的训练数据矩阵的所有元素以生成部分总和，将每个部分总和乘以其对应矩心值，并且对生成乘积求和，训练工作方可以直接从权重矩阵和训练数据矩阵的压缩表示来计算激活结果。

下面参考附图详细描述其他特征和优点、以及各种示例的结构和操作。注意，构思和技术不限于本文中所描述的具体示例。这样的示例在本文中被呈现仅用于说明目的。基于本文中所包含的教导，其他示例对于(多个)相关领域的技术人员将是明显的。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司，未经微软技术许可有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202080029838.7/2.html，转载请声明来源钻瓜专利网。

上一篇：货物运输组织的零信任通信系统及其使用方法
下一篇：针对4G7衍生的嵌合抗原受体的抗体

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]训练深度神经网络时的利用压缩权重的直接计算在审

专利文献下载