[发明专利]深度学习模型训练方法、系统及介质在审
申请号: | 202210070754.9 | 申请日: | 2022-01-20 |
公开(公告)号: | CN114528975A | 公开(公告)日: | 2022-05-24 |
发明(设计)人: | 钟成;周颖婕;邓星;张泽熙 | 申请(专利权)人: | 珠高智能科技(深圳)有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 张志辉 |
地址: | 518133 广东省深圳市宝安区新安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 深度 学习 模型 训练 方法 系统 介质 | ||
1.一种深度学习模型训练方法,其特征在于,包括以下步骤:
对深度学习模型做可变维度变化处理并训练,得到多个满足不同算力平台部署需求的深度学习模型;
其中,可变维度变化处理包括但不限于以下维度,也包括可变维度的组合变化:宽度变化处理、深度变化处理、卷积核大小变化处理、attention head的数量变化处理以及embedding维度变化处理。
2.根据权利要求1所述的深度学习模型训练方法,其特征在于,所述宽度变化处理包括:
根据采样策略对所述深度学习模型的N种变换中采样多次变换生成多个新层,将第i次变换生成的层各自串联,形成多个新的深度学习模型;其中N,i为正整数;
其中,所述变换包括对所述深度学习模型的神经网络层的输入宽度和输出宽度做变换,保留第一比例的输入进入神经网络,保留第二比例的输出进入下一层网络。
3.根据权利要求1所述的深度学习模型训练方法,其特征在于,所述深度变化处理包括:
根据采样策略对所述深度学习模型采样不同深度,采样多次,根据采样结果丢弃某些层,保留层各自串联,得到多个新的深度学习模型。
4.根据权利要求1所述的深度学习模型训练方法,其特征在于,所述对深度学习模型做可变维度变化处理并训练包括:
选取K种可变维度变化处理并排序,其中,K是正整数且K≤5;
对深度学习模型进行第1次可变维度变化处理,并训练得到的多个新的深度学习模型,直至总体迭代次数达到预设阈值,得到多个已训练的第1次变化深度学习模型;
对第k次变化深度学习模型进行第K+1可变维度变化处理,并训练得到的多个新的深度学习模型,直至总体迭代次数达到预设阈值,得到多个已训练的第K+1次变化深度学习模型;
其中,k代表可变维度变化处理次序。
5.根据权利要求1所述的深度学习模型训练方法,其特征在于,所述对深度学习模型做可变维度变化处理并训练包括:
可变维度变化处理步骤:对所述深度学习模型做多种可变维度变化处理,得到多个可变维度变化的深度学习模型;
训练步骤:将训练图片输入所有可变维度变化的深度学习模型进行训练,计算loss和梯度,将所有得到的梯度信息做平均来更新深度学习模型的参数;
返回所述可变维度变化处理步骤,直至深度学习模型的总体迭代次数达到预设阈值。
6.根据权利要求1所述的深度学习模型训练方法,其特征在于,对深度学习模型做可变维度变化处理并训练包括:
S1、对深度学习模型进行可变维度变化处理,得到M个新的深度学习模型;其中,M为正整数;
S2、将训练图片输入得到的M个深度学习模型,输出M个模型预测值;
S3、根据所述M个模型预测值与所述训练图片对应的标注计算损失函数并相加,并通过梯度下降算法更新所述M个深度学习模型的参数以及对应变换包含的参数;
S4、返回步骤S1,直至各个所述深度学习模型的总体迭代次数达到预设阈值。
7.根据权利要求2或3任一项所述的深度学习模型训练方法,其特征在于,所述采样策略至少包括以下各项中的一项:
固定采样、随机采样、按stage采样、依某种概率分布采样以及固定采样与随机采样混合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠高智能科技(深圳)有限公司,未经珠高智能科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210070754.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于在线监测指标的低压切负荷控制方法
- 下一篇:一种微藻非接触共培养装置