[发明专利]用于以降低精度进行深度神经网络训练的损失缩放在审

专利信息
申请号: 201880004842.0 申请日: 2018-05-07
公开(公告)号: CN110073371A 公开(公告)日: 2019-07-30
发明(设计)人: 吴昊;J·阿尔本;P·米齐可维休斯 申请(专利权)人: 辉达公司
主分类号: G06N3/08 分类号: G06N3/08
代理公司: 北京市磐华律师事务所 11336 代理人: 高伟;张建
地址: 美国加利*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 缩放 权重更新 神经网络 神经网络训练 限制性布置 精度计算 缩放因子 梯度计算 训练过程 减小 权重 正向 传递
【权利要求书】:

1.一种用于训练神经网络的系统,包括:

至少一个数值计算电路,配置为基于损失值计算梯度;以及

降低精度的选择器,所述降低精度的选择器耦合到所述至少一个数值计算电路,所述降低精度的选择器控制所述至少一个数值计算电路有选择地以降低精度的计算模式运行;

其中,所述至少一个数值计算电路还配置为在基于使用所述降低精度的模式计算的梯度调整权重时缩放所述损失值。

2.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为通过以与所述缩放成反比的方式减小所述权重梯度贡献来补偿所述缩放。

3.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为至少部分地基于超参数来缩放所述损失值。

4.如权利要求1所述的系统,其中所述至少一个数值计算电路配置为通过自动选择的缩放因子来缩放所述损失值。

5.如权利要求1所述的系统,进一步包括至少一个处理器,所述至少一个处理器配置为基于在上一次迭代中确定的最大幅度权重梯度,为所述神经网络训练的每次迭代自动选择所述缩放因子。

6.如权利要求5所述的系统,其中所述至少一个处理器计算所述缩放因子的上限u=log2(215-x)。

7.如权利要求6所述的系统,其中所述至少一个处理器还通过常数减小缩放因子以防止溢出。

8.如权利要求6所述的系统,其中,所述至少一个处理器还配置为测试由所述神经网络的训练迭代确定的权重梯度,并且以所述测试结果为条件以减小的缩放因子重复所述迭代。

9.如权利要求1所述的系统,其中,在使用权重梯度值进行权重更新之前,所述至少一个数值计算电路对每个权重梯度值进行与所述缩放因子成反比的量的修改。

10.如权利要求1所述的系统,其中,所述至少一个数值计算电路通过将所述梯度与基于所述缩放调整的另一参数相组合来执行权重更新。

11.权利要求10的系统,其中所述参数包括学习速率。

12.权利要求10的系统,其中所述参数包括梯度限幅阈值。

13.如权利要求10所述的系统,其中所述参数包括权重衰减。

14.一种训练深度神经网络的过程,包括:

(a)通过深度神经网络正向处理训练数据以产生损失值;

(b)通过缩放因子缩放所述损失值;

(c)通过深度神经网络反向传播所述缩放的损失值以计算梯度;以及

(d)基于计算的梯度以补偿缩放的方式调整深度神经网络的权重。

15.如权利要求14所述的过程,其中所述补偿包括在使用计算的梯度调整权重之前通过缩放因子减小所述计算的梯度。

16.如权利要求14所述的过程,进一步包括使用降低的精度计算所述梯度。

17.如权利要求14所述的过程,进一步包括以比与训练数据的正向处理相关联的至少一些计算所使用的精度更低的精度计算所述梯度。

18.如权利要求14所述的过程,进一步包括使用半精度计算梯度,同时恢复零值并规范化由于所述半精度的非正常值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201880004842.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top