[发明专利]人工神经网络的混合精度训练在审
申请号: | 202080021145.3 | 申请日: | 2020-03-05 |
公开(公告)号: | CN113632106A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 朱海杉;T·纳;D·洛;E·S·钟 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工 神经网络 混合 精度 训练 | ||
在训练人工神经网络(ANN)时使用混合精度值可以提高性能,同时降低成本。ANN的某些部分和/或步骤可以被选择来在训练时使用更高或更低的精度值。另外或可替代地,训练的早期阶段以较低的精度级别就足够准确来快速改进ANN模型,而较高的精度级别可以被用来提高后续步骤和时期的准确度。类似地,可以向长短期记忆(LSTM)的不同门供应具有不同精度的值。
背景技术
人工神经网络(“ANN”或“NN”)被应用于人工智能(“AI”)和机器学习(“ML”)中的许多应用,包括图像识别、语音识别、搜索引擎和其他合适的应用。ANN通常在多个“时期”(epoch)中进行训练。在每个时期中,ANN在多个步骤中对训练数据集中的所有训练数据进行训练。在每个步骤中,ANN首先对训练数据的一个实例(在本文中也可以被称为“样本”(sample))进行预测。该步骤通常被称为“前向传递”(forward pass)(在本文中也可以被称为“前向训练传递”(forward training pass)),但是步骤也可以包括后向传递。
为了进行预测,将训练数据样本馈送到ANN的第一层,该层通常被称为“输入层”(input layer)。然后,ANN的每一层都会(通常使用经学习的参数或“权重”(weights))在其输入上计算一个函数,来为下一层生成输入。通常被称为“输出层”(output layer)的最后一层的输出是类别预测,通常被实现为向量,其指示样本是多个类(class)的成员的概率。基于由ANN所预测的标签和每个训练数据实例的实际标签,输出层计算“损失”(loss)或误差函数。
在ANN的“后向传递”(backward pass)(在本文中也可以被称为“后向训练传递”(backward training pass))中,ANN的每一层计算针对前一层的误差以及梯度,或者更新将ANN的预测朝向所期望的输出移动的层的权重。训练ANN的结果是一组权重或“内核”(kernel),其表示可以被应用于输入的变换函数,结果是分类或语义标记的输出。
在训练ANN之后,可以使用经训练的ANN对新数据进行分类。具体来说,经训练的ANN模型可以使用训练期间计算出的权重和偏差来对被用来训练ANN的数据以外的数据执行任务(例如分类和识别)。通用中央处理单元(“CPU”)、专用处理器(例如图形处理单元(“GPU”)、张量处理单元(“TPU”)和现场可编程门阵列(“FPGA”))以及其他类型的硬件可以被用来执行ANN模型。
ANN通常使用常规精度浮点格式(normal-precision floating-point format)(例如16位、32位、64位和80位浮点格式)用于内部计算。训练ANN可能是一项计算密集型且存储密集型的任务,需要数十亿次操作和千兆字节的存储。但是,可以通过在训练和/或推断期间使用量化精度浮点格式来改进ANN的性能、能源使用和存储要求。量化精度浮点格式的示例包括具有减少位宽度(包括通过减少被用来表示数字的尾数和/或指数的位数)以及使用小(例如3、4或5位)尾数和由两个或多个数字共享的指数的块浮点(“BFP”)格式。然而,量化精度浮点格式的使用会对ANN产生某些负面影响,例如但不限于准确度的损失。
正是针对这些和其他技术挑战呈现了本文做出的公开。
发明内容
本文公开了用于混合精度训练的技术。通过所公开技术的实现,可以通过在ANN的不同部分(例如,不同层或其他神经元集合)中和/或在不同训练步骤期间改变精度来改进训练所需的时间和/或ANN的准确度。变化的精度允许敏感部分和/或步骤利用更高精度的权重、激活等,而不太敏感的部分和/或步骤可以使用较低的精度值而被令人满意地处理。
混合精度训练的使用带来了许多技术优势。例如,通过保持或提高网络训练的关键部分和/或步骤的精度,可以获得更高的精度。同时,较低精度值的使用减少了训练ANN所需的存储资源和计算资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080021145.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:增材制造
- 下一篇:利用随机哈密顿量的相位估计