[发明专利]一种神经网络模型的训练装置、方法及相关设备在审
申请号: | 202010441573.3 | 申请日: | 2020-05-22 |
公开(公告)号: | CN113705801A | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 陈超;徐斌;黄炜平 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06N3/063 | 分类号: | G06N3/063;G06N3/04;G06N3/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 聂秀娜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 神经网络 模型 训练 装置 方法 相关 设备 | ||
1.一种神经网络模型的训练装置,其特征在于,所述训练装置包括多个加速器,每个加速器用于:
存储部分权重系数,所述多个加速器各自存储的所述部分权重系数组成完整权重系数;
将所述多个加速器中分别存储的所述部分权重系数进行汇聚以得到所述完整权重系数;
根据输入数据和所述完整权重系数训练神经网络模型,其中,所述多个加速器的输入数据各自不同。
2.根据权利要求1所述的训练装置,其特征在于,所述每个加速器在根据输入数据和所述完整权重系数训练所述神经网络模型时,具体用于:
根据所述输入数据和所述完整权重系数计算梯度信息;
根据所述多个加速器的梯度信息计算目标梯度;
利用所述目标梯度更新所述部分权重系数,并根据更新后的部分权重系数训练所述神经网络模型。
3.根据权利要求2所述的训练装置,其特征在于,所述每个加速器用于:
存储优化器中部分初始变量,所述多个加速器各自存储的部分初始变量组成所述优化器的完整初始变量,所述优化器用于更新所述神经网络模型的权重系数;
所述每个加速器在利用所述目标梯度更新所述部分权重系数时,具体用于:
根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的目标梯度;
根据所述处理后的目标梯度更新所述部分权重系数。
4.根据权利要求3所述的训练装置,其特征在于,所述优化器包括矢量运算,所述每个加速器在根据所述部分初始变量处理所述目标梯度和所述部分权重系数以得到处理后的目标梯度时,具体用于:
计算所述目标梯度的标量表示;
将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求和结果;
根据所述求和结果计算所述目标梯度的矢量表示;
根据所述部分初始变量处理所述目标梯度的矢量表示和所述部分权重系数,得到所述处理后的目标梯度。
5.根据权利要求4所述的训练装置,其特征在于,所述每个加速器在将所述多个加速器中的所述目标梯度的标量表示进行汇聚以得到所述目标梯度的求和结果时,具体用于:
将所述多个加速器中的所述目标梯度的标量表示通过集合通信方式中的减少操作进行汇聚以得到所述目标梯度的求和结果。
6.根据权利要求1至5任一项所述的训练装置,其特征在于,所述部分权重系数包括将所述完整权重系数均分后一一分配至所述多个加速器的权重系数。
7.根据权利要求1至5任一项所述的训练装置,其特征在于,所述每个加速器在将所述多个加速器中分别存储的所述部分权重系数进行汇聚以得到所述完整权重系数时,具体用于:
将所述多个加速器中分别存储的所述部分权重系数通过集合通信方式中的收集操作进行汇聚以得到所述完整权重系数。
8.根据权利要求2至5任一项所述的训练装置,其特征在于,所述每个加速器在根据所述多个加速器的梯度信息计算目标梯度时,具体用于:
根据所述多个加速器的梯度信息通过集合通信方式中的减少分散操作计算所述目标梯度。
9.根据权利要求3或4所述的训练装置,其特征在于,所述部分初始变量包括将所述完整初始变量均分后一一分配至所述多个加速器的初始变量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010441573.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种告警根因定位方法及装置
- 下一篇:包含垂直引线键合体的半导体装置