[发明专利]人工神经网络的混合精度训练在审

专利信息
申请号: 202080021145.3 申请日: 2020-03-05
公开(公告)号: CN113632106A 公开(公告)日: 2021-11-09
发明(设计)人: 朱海杉;T·纳;D·洛;E·S·钟 申请(专利权)人: 微软技术许可有限责任公司
主分类号: G06N3/04 分类号: G06N3/04;G06N3/063;G06N3/08
代理公司: 北京市金杜律师事务所 11256 代理人: 马明月
地址: 美国华*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 人工 神经网络 混合 精度 训练
【说明书】:

在训练人工神经网络(ANN)时使用混合精度值可以提高性能,同时降低成本。ANN的某些部分和/或步骤可以被选择来在训练时使用更高或更低的精度值。另外或可替代地,训练的早期阶段以较低的精度级别就足够准确来快速改进ANN模型,而较高的精度级别可以被用来提高后续步骤和时期的准确度。类似地,可以向长短期记忆(LSTM)的不同门供应具有不同精度的值。

背景技术

人工神经网络(“ANN”或“NN”)被应用于人工智能(“AI”)和机器学习(“ML”)中的许多应用,包括图像识别、语音识别、搜索引擎和其他合适的应用。ANN通常在多个“时期”(epoch)中进行训练。在每个时期中,ANN在多个步骤中对训练数据集中的所有训练数据进行训练。在每个步骤中,ANN首先对训练数据的一个实例(在本文中也可以被称为“样本”(sample))进行预测。该步骤通常被称为“前向传递”(forward pass)(在本文中也可以被称为“前向训练传递”(forward training pass)),但是步骤也可以包括后向传递。

为了进行预测,将训练数据样本馈送到ANN的第一层,该层通常被称为“输入层”(input layer)。然后,ANN的每一层都会(通常使用经学习的参数或“权重”(weights))在其输入上计算一个函数,来为下一层生成输入。通常被称为“输出层”(output layer)的最后一层的输出是类别预测,通常被实现为向量,其指示样本是多个类(class)的成员的概率。基于由ANN所预测的标签和每个训练数据实例的实际标签,输出层计算“损失”(loss)或误差函数。

在ANN的“后向传递”(backward pass)(在本文中也可以被称为“后向训练传递”(backward training pass))中,ANN的每一层计算针对前一层的误差以及梯度,或者更新将ANN的预测朝向所期望的输出移动的层的权重。训练ANN的结果是一组权重或“内核”(kernel),其表示可以被应用于输入的变换函数,结果是分类或语义标记的输出。

在训练ANN之后,可以使用经训练的ANN对新数据进行分类。具体来说,经训练的ANN模型可以使用训练期间计算出的权重和偏差来对被用来训练ANN的数据以外的数据执行任务(例如分类和识别)。通用中央处理单元(“CPU”)、专用处理器(例如图形处理单元(“GPU”)、张量处理单元(“TPU”)和现场可编程门阵列(“FPGA”))以及其他类型的硬件可以被用来执行ANN模型。

ANN通常使用常规精度浮点格式(normal-precision floating-point format)(例如16位、32位、64位和80位浮点格式)用于内部计算。训练ANN可能是一项计算密集型且存储密集型的任务,需要数十亿次操作和千兆字节的存储。但是,可以通过在训练和/或推断期间使用量化精度浮点格式来改进ANN的性能、能源使用和存储要求。量化精度浮点格式的示例包括具有减少位宽度(包括通过减少被用来表示数字的尾数和/或指数的位数)以及使用小(例如3、4或5位)尾数和由两个或多个数字共享的指数的块浮点(“BFP”)格式。然而,量化精度浮点格式的使用会对ANN产生某些负面影响,例如但不限于准确度的损失。

正是针对这些和其他技术挑战呈现了本文做出的公开。

发明内容

本文公开了用于混合精度训练的技术。通过所公开技术的实现,可以通过在ANN的不同部分(例如,不同层或其他神经元集合)中和/或在不同训练步骤期间改变精度来改进训练所需的时间和/或ANN的准确度。变化的精度允许敏感部分和/或步骤利用更高精度的权重、激活等,而不太敏感的部分和/或步骤可以使用较低的精度值而被令人满意地处理。

混合精度训练的使用带来了许多技术优势。例如,通过保持或提高网络训练的关键部分和/或步骤的精度,可以获得更高的精度。同时,较低精度值的使用减少了训练ANN所需的存储资源和计算资源。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202080021145.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top