[发明专利]神经网络模型的训练和应用方法、装置、系统及存储介质在审
申请号: | 201911115314.5 | 申请日: | 2019-11-14 |
公开(公告)号: | CN112446487A | 公开(公告)日: | 2021-03-05 |
发明(设计)人: | 刘俊杰;陈则玮;温东超;陶玮;汪德宇 | 申请(专利权)人: | 佳能株式会社 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N3/04 |
代理公司: | 北京怡丰知识产权代理有限公司 11293 | 代理人: | 迟军;李艳丽 |
地址: | 日本国东京都*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 神经网络 模型 训练 应用 方法 装置 系统 存储 介质 | ||
1.一种神经网络模型的训练方法,其特征在于,所述训练方法包括:
在反向传播中,确定所述神经网络模型中的权重的梯度;
针对确定的梯度中的至少一个梯度,执行以下处理:
确定梯度是否在约束阈值范围内,并将超出所述约束阈值范围的梯度约束到所述约束阈值范围内,
其中,所述约束阈值范围是根据所述神经网络模型的训练迭代次数和计算精度确定的;
利用约束后的梯度更新权重。
2.根据权利要求1所述的训练方法,其特征在于,
其中,在梯度大于所述约束阈值范围的上限值的情况下,将所述梯度约束成所述上限值;
在梯度小于所述约束阈值范围的下限值的情况下,将所述梯度约束成所述下限值。
3.根据权利要求1所述的训练方法,其特征在于,
其中,所述约束阈值范围的上限值在逐次训练中单调递减,所述约束阈值范围的下限值在逐次训练中单调递增。
4.根据权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
确定所述神经网络模型中各权重的量化误差,并将其中最大的量化误差作为所述神经网络模型的量化误差;
利用所述神经网络模型的量化误差和训练迭代次数确定约束阈值范围,其中,确定的所述约束阈值范围用于对所述至少一个梯度进行约束。
5.根据权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
针对所述神经网络模型中的至少一个权重,确定该权重的量化误差;
利用权重的量化误差和训练迭代次数确定约束阈值范围,其中,确定的约束阈值范围用于对该权重的梯度进行约束。
6.根据权利要求1所述的训练方法,其特征在于,所述训练方法还包括:
针对所述神经网络模型中的至少一个权重,从该权重在本次训练确定的梯度以及该权重在前多次训练约束后的梯度中,确定加权最大值;
确定所述加权最大值是否在约束阈值范围内,并将超出所述约束阈值范围的加权最大值约束到所述约束阈值范围内。
7.根据权利要求6所述的训练方法,其特征在于,其中,所述神经网络模型的计算精度越低,确定加权最大值时所需的前多次训练的训练次数就越少。
8.一种神经网络模型的训练系统,其特征在于,所述训练系统包括:
服务器,其存储至少一个第一网络模型,所述第一网络模型提供用于对第二网络模型进行同步的信息,所述服务器用于在反向传播中,确定所述第一网络模型中的权重的梯度,并针对确定的梯度中的一个梯度,执行以下处理:
确定梯度是否在约束阈值范围内,并将超出所述约束阈值范围的梯度约束到所述约束阈值范围内,利用约束后的梯度更新权重,并将更新后的权重输出,
其中,所述约束阈值范围是根据所述第一网络模型的训练迭代次数和计算精度确定的;
终端,其存储所述第二网络模型,所述终端用于利用服务器输出的权重对所述第二网络模型进行同步。
9.根据权利要求8所述的训练系统,其特征在于,其中,所述服务器还用于:
确定所述第一网络模型中各权重的量化误差,并将其中最大的量化误差作为所述第一网络模型的量化误差;
利用所述第一网络模型的量化误差和训练迭代次数确定约束阈值范围,其中,确定的所述约束阈值范围用于对所述至少一个梯度进行约束。
10.根据权利要求8所述的训练系统,其特征在于,其中,所述服务器还用于:
针对所述第一网络模型中的至少一个权重,确定该权重的量化误差;
利用权重的量化误差和训练迭代次数确定约束阈值范围,其中,确定的约束阈值范围用于对该权重的梯度进行约束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佳能株式会社,未经佳能株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911115314.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:水性聚合物、分散液与水性涂料
- 下一篇:存储器装置