[发明专利]用于以降低精度进行深度神经网络训练的损失缩放在审
申请号: | 201880004842.0 | 申请日: | 2018-05-07 |
公开(公告)号: | CN110073371A | 公开(公告)日: | 2019-07-30 |
发明(设计)人: | 吴昊;J·阿尔本;P·米齐可维休斯 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟;张建 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缩放 权重更新 神经网络 神经网络训练 限制性布置 精度计算 缩放因子 梯度计算 训练过程 减小 权重 正向 传递 | ||
在使用降低的精度训练深度神经网络时,梯度计算在较大的值上操作而不影响训练过程的其余部分。一种训练深度神经网络的技术,产生损失值、缩放所述损失值、以降低的精度计算梯度,并减小计算梯度的大小以补偿所述损失值的缩放。在一个示例性非限制性布置中,训练正向传递将损失值缩放某个因子S,并且权重更新将权重梯度贡献减少1/S。可以使用几种技术来选择缩放因子S并调整权重更新。
本申请要求2017年5月5日提交的62/502,333号和2017年9月21日提交的62/561,499号美国临时专利申请的权益;以及要求2018年5月4日提交的15/971,884的美国非临时申请的权益,所有这些申请都通过引用并入本文。
关于联邦政府资助的研究或开发的声明
没有。
技术领域
该技术涉及深度神经网络(“DNN”),并且涉及使用降低的精度计算能力来有效地训练这样的网络。
背景技术
在软件开发实践中,程序员应尽早并经常学习使用正确工具用于工作的重要性。在数值计算方面,这一点尤其重要,其中在精度、准确度和性能之间的权衡在选择数据的最佳表示中非常有用。
许多技术和高性能计算应用程序需要使用32位(单浮点或FP32)或64位(双浮点或FP64)浮点表示和计算的高精度计算。但是有许多应用程序对于其较低精度的运算足够。例如,处于快速发展的深度学习领域的研究人员发现深度神经网络架构由于训练它们时使用的反向传播算法而具有自然的错误恢复能力,并且有些人认为16位浮点(半精度或FP16)足够用于训练此类网络。
与更高精度的FP32(全精度)或FP64(双精度)相比,存储表示为FP16(半精度)的数据减少了神经网络的内存使用,可能允许训练和部署更大的网络。FP16数据传输比FP32或FP64传输花费的时间更少。对于许多网络,甚至可以使用8位整数计算执行某些深度学习推理,而不会对准确度产生重大影响。
众所周知,将在计算方法或平台中组合使用不同的数值精度称为“混合精度”。虽然计算方法的不同时期或阶段可能使用不同精度的计算硬件,但是许多平台和计算设备现在提供混合精度能力作为配置选项。例如,通过用额外的将多个低精度运算打包到同一个32位数据通道中的向量指令补充更高精度的32位指令,NVIDIA Pascal架构提供旨在为可以利用低精度计算的应用程序提供更高的性能的功能。这样的指令可以例如在16位浮点数据(“半精度或”FP16“)或8位和16位整数数据(AINTA和INT 16)下操作。
因此可以通过使用这种降低精度的能力来获得速度优势。例如,由GP100GPU驱动的NVIDIA Tesla P100可以在吞吐量是FP32的两倍的情况下执行FP16算法。NVIDIA TeslaP 100支持双向向量半精度融合乘加(FMA)指令,该指令可以以与32位FMA指令相同的速率发出。例如,实现信息,参见例如标题为“可配置执行32位或双16位浮点操作的逻辑电路(Logic Circuitry Configurable to Perform 32-Bit or Dual 16-bit Floating-PointOperations)”的共同转让US20150169289,其通过引用结合于此。这意味着在P100上半精度运算具有单精度运算两倍的吞吐量。这些指令对于实现高效深度学习推理以及其他应用程序非常有用。
尽管过去已经完成了一些将降低精度应用到机器学习和训练的工作,但是进行进一步的改进是可能且需要的。
本专利或申请文件包含至少一幅彩色附图。具有彩色附图的本专利或专利申请公开的副本将根据请求并支付必要费用后由主管局提供。
下面结合附图阅读对示例性非限制性说明性实施例进行的详细描述:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880004842.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于稀疏神经网络的低功率架构
- 下一篇:量子比特多状态重置