[发明专利]用于训练DNN的缩放学习在审
申请号: | 201980084632.1 | 申请日: | 2019-12-10 |
公开(公告)号: | CN113196304A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | B·劳哈尼·达维什;E·S·钟;D·洛;D·C·伯格 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N3/063 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 训练 dnn 缩放 学习 | ||
1.一种用于训练利用启用量化的系统实现的神经网络的方法,所述方法包括:
利用所述启用量化的系统:
获取张量,所述张量包括以量化精度格式表示的所述神经网络的一个或多个参数的值;
生成表示所述张量中存在的量化噪声的至少一个噪声信号度量;
基于所述至少一个噪声信号度量生成已缩放学习率;以及
使用所述张量的所述值执行所述神经网络的训练期,包括使用所述已缩放学习率计算一个或多个梯度更新。
2.根据权利要求1所述的方法,其中:
所述张量是通过将第一张量的值从普通精度浮点格式转换为所述量化精度格式而获取的第二张量,以及
所述一个或多个参数是在所述神经网络的训练期的前向传播阶段使用的权重。
3.根据权利要求2所述的方法,其中:
所述一个或多个参数表示所述神经网络的边权重和激活权重,以及
生成所述至少一个噪声信号度量包括:对于所述神经网络的多个层中的每一层,生成针对所述层的所述激活权重的噪声信号比并且生成针对所述层的所述边权重的噪声信号比。
4.根据权利要求3所述的方法,其中:
生成针对所述多个层中的每一层的所述激活权重的所述噪声信号比包括:计算所述第二张量的针对所述层的所述激活权重与所述第一张量的针对所述层的所述激活权重之间的差,并且将所述差除以所述第一张量的针对所述层的所述激活权重的绝对值;以及
生成针对所述多个层中的每一层的所述边权重的所述噪声信号比包括:计算所述第二张量的针对所述层的所述边权重与所述第一张量的针对所述层的所述边权重之间的差,并且将所述差除以所述第一张量的针对所述层的所述边权重的绝对值。
5.根据权利要求3所述的方法,还包括基于所述至少一个噪声信号度量来生成缩放因子,其中:
所述神经网络包括总共L层;以及
针对所述神经网络的第l层的所述缩放因子是基于针对所述第l层的所述激活权重的所述噪声信号比的平均值以及针对所述神经网络的第l+1层到第L层的所述边权重的所述噪声信号比的平均值的总和来生成的。
6.根据权利要求5所述的方法,其中:
训练所述神经网络包括经由随机梯度下降来训练所述神经网络;以及
所述神经网络的所述第l层的所述已缩放学习率通过下式来计算:
其中εq表示所述已缩放学习率,ε表示所述神经网络的预定学习率,以向量形式表示在随机梯度下降批大小上的所述第l层的所述激活权重的所述噪声信号比的平均值,以矩阵形式表示针对每个样本的、所述神经网络的第k层的所述边权重的所述噪声信号比的平均值。
7.根据权利要求6所述的方法,其中使用所述已缩放学习率计算所述一个或多个梯度更新包括:使用所述已缩放学习率来计算针对所述第l层的一个或多个参数的梯度更新。
8.根据权利要求7所述的方法,其中使用所述已缩放学习率计算所述一个或多个梯度更新还包括:使用针对所述第l层生成的相同的已缩放学习率,计算针对所述神经网络的一个或多个其他层的一个或多个参数的梯度更新。
9.根据权利要求2所述的方法,还包括基于所述至少一个噪声信号度量生成缩放因子,其中:
所述普通精度浮点格式表示具有第一位宽的所述值;
所述量化精度格式表示具有第二位宽的所述值,所述第二位宽低于所述第一位宽;以及
所述方法还包括:
将所述缩放因子存储在查找表中针对所述第二位宽的条目中;
通过访问所述查找表中针对所述第二位宽的所述条目以获取针对所述第二位宽的所述缩放因子,计算针对所述神经网络的一个或多个其他参数的梯度更新,所述一个或多个其他参数以所述第二位宽表示;以及
使用针对所述第二位宽的所述缩放因子,计算针对所述一个或多个其他参数的所述梯度更新。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980084632.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于拉开和扭转的装置和方法
- 下一篇:用于改善沉积的毛发调理组合物