[发明专利]用于以降低精度进行深度神经网络训练的损失缩放在审
申请号: | 201880004842.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN110073371A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 吴昊;J·阿尔本;P·米齐可维休斯 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;张建 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缩放 权重更新 神经网络 神经网络训练 限制性布置 精度计算 缩放因子 梯度计算 训练过程 减小 权重 正向 传递 | ||
1.一种用于训练神经网络的系统,包括:
至少一个数值计算电路,配置为基于损失值计算梯度;以及
降低精度的选择器,所述降低精度的选择器耦合到所述至少一个数值计算电路,所述降低精度的选择器控制所述至少一个数值计算电路有选择地以降低精度的计算模式运行;
其中,所述至少一个数值计算电路还配置为在基于使用所述降低精度的模式计算的梯度调整权重时缩放所述损失值。
2.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为通过以与所述缩放成反比的方式减小所述权重梯度贡献来补偿所述缩放。
3.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为至少部分地基于超参数来缩放所述损失值。
4.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为通过自动选择的缩放因子来缩放所述损失值。
5.如权利要求1所述的系统,进一步包括至少一个处理器,所述至少一个处理器配置为基于在上一次迭代中确定的最大幅度权重梯度,为所述神经网络训练的每次迭代自动选择所述缩放因子。
6.如权利要求5所述的系统,其中所述至少一个处理器计算所述缩放因子的上限u=log2(215-x)。
7.如权利要求6所述的系统,其中所述至少一个处理器还通过常数减小缩放因子以防止溢出。
8.如权利要求6所述的系统,其中,所述至少一个处理器还配置为测试由所述神经网络的训练迭代确定的权重梯度,并且以所述测试结果为条件以减小的缩放因子重复所述迭代。
9.如权利要求1所述的系统,其中,在使用权重梯度值进行权重更新之前,所述至少一个数值计算电路对每个权重梯度值进行与所述缩放因子成反比的量的修改。
10.如权利要求1所述的系统,其中,所述至少一个数值计算电路通过将所述梯度与基于所述缩放调整的另一参数相组合来执行权重更新。
11.权利要求10的系统,其中所述参数包括学习速率。
12.权利要求10的系统,其中所述参数包括梯度限幅阈值。
13.如权利要求10所述的系统,其中所述参数包括权重衰减。
14.一种训练深度神经网络的过程,包括:
(a)通过深度神经网络正向处理训练数据以产生损失值;
(b)通过缩放因子缩放所述损失值;
(c)通过深度神经网络反向传播所述缩放的损失值以计算梯度;以及
(d)基于计算的梯度以补偿缩放的方式调整深度神经网络的权重。
15.如权利要求14所述的过程,其中所述补偿包括在使用计算的梯度调整权重之前通过缩放因子减小所述计算的梯度。
16.如权利要求14所述的过程,进一步包括使用降低的精度计算所述梯度。
17.如权利要求14所述的过程,进一步包括以比与训练数据的正向处理相关联的至少一些计算所使用的精度更低的精度计算所述梯度。
18.如权利要求14所述的过程,进一步包括使用半精度计算梯度,同时恢复零值并规范化由于所述半精度的非正常值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880004842.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于稀疏神经网络的低功率架构
- 下一篇:量子比特多状态重置