[发明专利]人工神经网络的混合精度训练在审
申请号: | 202080021145.3 | 申请日: | 2020-03-05 |
公开(公告)号: | CN113632106A | 公开(公告)日: | 2021-11-09 |
发明(设计)人: | 朱海杉;T·纳;D·洛;E·S·钟 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 马明月 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工 神经网络 混合 精度 训练 | ||
1.一种计算机实现的方法,包括:
定义包括多个节点层的人工神经网络(ANN);
针对与所述多个节点层中的第一层相关联的激活值设置第一位宽度;
针对与所述多个节点层中的第二层相关联的激活值设置第二位宽度;以及
在所述ANN的训练期间或从所述ANN的推断期间,
将第一激活函数应用于所述多个节点层中的所述第一层,从而生成具有所述第一位宽度的多个激活值;以及
将第二激活函数应用于所述多个节点层中的所述第二层,从而生成具有所述第二位宽度的第二多个激活值。
2.根据权利要求1所述的计算机实现的方法,还包括:
针对与所述多个节点层中的所述第一层相关联的权重设置第三位宽度,其中在所述ANN的训练期间或从所述ANN的推断期间,所述多个节点层中的所述第一层生成具有所述第三位宽度的权重;以及
针对与所述多个节点层中的所述第二层相关联的权重设置第四位宽度,其中在所述ANN的训练期间或从所述ANN的推断期间,所述多个节点层中的所述第二层生成具有所述第四位宽度的权重。
3.根据权利要求1和2中任一项所述的计算机实现的方法,其中所述多个节点层中的所述第一层包括输入层,其中所述多个节点层中的所述第二层包括输出层,并且其中所述第一位宽度和所述第二位宽度被设置为不同于与剩余节点层的集合相关联的位宽度。
4.根据权利要求1至3中任一项所述的计算机实现的方法,其中所述ANN在多个步骤上被训练或在多个步骤上从所述ANN做出推断,其中所述第一位宽度被用来在所述多个步骤中的第一步骤期间训练所述多个节点层中的所述第一层或从所述多个节点层中的所述第一层进行推断,并且其中第五位宽度被用来在所述多个步骤中的第二步骤期间训练所述多个节点层中的所述第一层或从所述多个节点层中的所述第一层进行推断。
5.根据权利要求1至4中任一项所述的计算机实现的方法,其中通过对与所述第一层相关联的位宽度和与所述多个步骤中的第一步骤相关联的位宽度进行平均来在所述多个步骤中的第一步骤期间针对所述第一层确定有效位宽度。
6.根据权利要求1至5中任一项所述的计算机实现的方法,还包括:
针对所述ANN的长短期记忆(LSTM)组件的第一门类型设置第六位宽度;以及
针对所述ANN的所述LSTM组件的第二门类型设置第七位宽度。
7.根据权利要求1至6中任一项所述的计算机实现的方法,其中所述激活值以块浮点格式(BFP)来表示,所述块浮点格式具有与常规精度浮点表示的尾数相比包括更少位的尾数。
8.一种计算机实现的方法,包括:
定义包括多个节点层的人工神经网络(ANN),其中所述ANN在多个步骤上被训练;
针对在所述多个步骤中的第一步骤期间生成的激活值设置第一位宽度;
针对在所述多个步骤中的第二步骤期间生成的激活值设置第二位宽度;
通过在所述多个步骤中的所述第一步骤期间应用第一激活函数来训练所述ANN,从而生成具有所述第一位宽度的激活值;以及
通过在所述多个步骤中的所述第二步骤期间应用第二激活函数来训练所述ANN,从而生成具有所述第二位宽度的激活值。
9.根据权利要求8所述的计算机实现的方法,其中所述ANN在多个时期上被训练,其中针对在第一时期期间生成的值设置所述第一位宽度,并且针对在第二时期期间生成的值设置所述第二位宽度。
10.根据权利要求8和9中任一项所述的计算机实现的方法,其中第三位宽度与多个节点层中的第一层相关联,其中第四位宽度与多个节点层中的第二层相关联,并且其中针对所述第一层中的并且在所述第一步骤期间被训练的节点的有效位宽度基于所述第一位宽度和所述第三位宽度的组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080021145.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:增材制造
- 下一篇:利用随机哈密顿量的相位估计