[发明专利]使用低精度格式的张量处理在审
申请号: | 201710451960.3 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107526709A | 公开(公告)日: | 2017-12-29 |
发明(设计)人: | 波里斯·金斯伯格;塞奇·尼克拉艾;艾哈迈德·基斯瓦尼;浩·吴;阿米尔·吴拉姆纳贾德;斯朗瓦莫·基拉特;迈克尔·休斯顿;亚历克斯·菲特-弗洛雷亚 | 申请(专利权)人: | 辉达公司 |
主分类号: | G06F17/16 | 分类号: | G06F17/16;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京市磐华律师事务所11336 | 代理人: | 高伟,刘爱平 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 精度 格式 张量 处理 | ||
技术领域
本发明的实施方案大体上涉及用于机器学习的计算机实现的技术。更具体地,本发明的实施方案涉及一种用于改善神经网络和卷积网络的深度学习的训练的构架。
背景技术
机器学习是涉及使用用于通过数据集的模式识别和自适应处理来进行问题求解的计算机实现的算法的计算机科学的领域。与常规“静态”编程相反,机器学习应用的特征为能够在不进行显式编程的情况下通过从数据集迭代地精处理模型来生成预测数据模型。人工神经网络是最普遍的机器学习算法之一,并且使用分布式并行处理器对分布在输入层与输出层之间的一个或多个内部或“隐藏”层各处的多个互连的“神经元”(处理单元)处的输入数据执行参数化计算以计算出输出,输出与目标输出或参考输出进行比较。人工神经网络通过分配给相邻层的神经元之间的连接的权重而参数化。网络的参数不断更新以减少并最终消除输出差异,直到获得准确数据模型。“深度”神经网络是指由3个或更多个层组成的神经网络。
一种普遍人工神经网络训练方法称为后向传播(或反向传播)。以预定的(通常是随机的)权重集开始,通过重复应用包括前向传递、接着是后向传播(“反向传播”)阶段结合优化阶段一起的两阶段式操作循环来精处理权重。在前向传播阶段中,输入通过神经网络前向传播,其中逐层在每个神经元处执行计算,直到其到达输出层。还可在一个或多个神经元处应用非线性激活函数以进一步将输出指向到离散值。随后,使用损失函数将输出与目标输出进行比较,并且为输出层中的每个元素来计算误差值。在后向传播阶段期间,计算误差函数梯度,并且随后后向传播而通过层以确定与每个神经元对应的梯度。然后,使用这些梯度相对于网络中的每个权重来计算损失函数的梯度。在最后一个阶段中,计算出的梯度用于更新所应用的权重以尝试最小化损失函数。一旦实际输出基本上近似于目标输出(例如,在准确性阈值内),那么认为数据模型是完整的,并且可以终止进一步的学习。
标准后向传播实现方式典型地在执行数据计算时使用实数的32位浮点(也称单精度浮点)表示进行数据存储和操纵。典型地,单精度浮点数使用32位浮点值的第一个位指示符号,接下来的八(8)个位是指示指数值,而剩余的二十三(23)个位是指示有效位(又称小数或尾数)。然而,32位值的存储和计算需要相当大的存储器和处理资源。因此,已开发出替代地依赖于低精度格式的新的技术。作为对全32位的替代,这些解决方案典型地使用了16位浮点(浮点16位)表示。在最初为数据存储设计的情况下,传统浮点16位格式类似地将第一个位用于符号,但是仅有五(5)个位来表示指数值,并且仅有十(10)个位是用于小数/尾数。可由浮点16位表示的值的正常正数范围跨越在2-14(约-6.10×10-5)与216(约65,504)之间,其中低常正数范围在2-24与2-14之间。
相较传统单精度浮点格式,使用浮点16位训练神经(具体地是卷积)网络提供若干优点。具体来说,相较单精度浮点,可针对神经网络中的计算密集的层显著更快地执行(有可能地)浮点16位计算。存储浮点16位值需要显著较小的存储器。由于传输数据必要的减少的时间,因此以浮点16位格式的数据存储还改善带宽受限的层的性能。最后,使用浮点16位格式的存储还允许该网络的尺寸和对多处理器(例如,多GPU)系统通信所需的时间的减少。
不幸的是,16位浮点数字具有比单精度浮点表示显著更窄的数值范围。因此,当执行的计算产生超出规定范围的数值时,就会发生上溢或下溢。由于矩阵-矩阵相乘,上溢典型地会出现在卷积或全连接的神经网络层中,并且可表现为在训练操作期间的非常高的精度损失和不期望的非数字(NAN)值,这对分析人员来说可呈现为网络发散。下溢同时可以造成在前向训练操作期间的较少或甚至无激活(学习停止),类似地造成了大的精度损失和网络发散。上溢和下溢可以影响在该神经网络训练周期的前向传播步骤期间的激活计算和在后向传播步骤期间的梯度计算。上溢和下溢两者还会造成在训练周期的第二阶段的权重更新步骤期间的精度损失。
发明内容
此发明概要被提供用来以简化的形式介绍对概念的选择,这些概念在以下详细描述中更详细地描述。此发明概要并不意图标识本发明的关键特征或基本特征,也不意图用于限制本发明的范围。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710451960.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子记事本
- 下一篇:一种基于混合特征的中文文档基因提取方法