[发明专利]深度学习模型训练方法、系统及介质在审

申请号：	202210070754.9	申请日：	2022-01-20
公开（公告）号：	CN114528975A	公开（公告）日：	2022-05-24
发明（设计）人：	钟成;周颖婕;邓星;张泽熙	申请（专利权）人：	珠高智能科技（深圳）有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08
代理公司：	广州嘉权专利商标事务所有限公司 44205	代理人：	张志辉
地址：	518133 广东省深圳市宝安区新安***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	深度学习模型训练方法系统介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了深度学习模型训练方法、系统及介质，其中方法包括以下步骤：对深度学习模型做可变维度变化处理并训练，得到多个满足不同算力平台部署需求的深度学习模型；其中，可变维度变化处理包括但不限于以下维度，也包括可变维度的组合变化：宽度变化处理、深度变化处理、卷积核大小变化处理、attention head的数量变化处理以及embedding维度变化处理。本发明实施例解决深度学习模型在不同算力平台上部署时碰到的重复训练难题，通过将深度学习网络结构和训练流程进行改造，实现一次训练即可满足不同算力平台部署的需求。

技术领域

本发明涉及深度学习、自动机器学习、目标检测、图像处理领域，特别涉及一种深度学习模型训练方法、系统及介质。

背景技术

海量的AI应用场景需要在不同算力平台上部署大量的AI模型，新的网络模型如Transformer架构的网络也层出不穷。然而，现有高准确率的深度学习模型的参数量与计算量都在迅速上升，只能在高算力的平台上运行，无法满足在各种算力的硬件上部署的需求。模型压缩技术虽然可以让深度学习模型在低算力平台上运行，但不同型号的算力平台的部署要求均不相同，迁移到不同平台都需要重新对深度学习模型重新训练，无法满足大规模部署AI模型的需求。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种深度学习模型训练方法，能够将深度学习网络进行改造，可以从基础网络中得到各种宽度与深度的新深度学习模型，并通过一种渐进训练方法实现一次训练即可满足不同算力平台部署的需求。

本发明还提出一种深度学习模型训练系统。

本发明还提出一种实施上述深度学习模型训练方法的计算机可读存储介质。

根据本发明的第一方面实施例的深度学习模型训练方法，包括以下步骤：对深度学习模型做可变维度变化处理并训练，得到多个满足不同算力平台部署需求的深度学习模型；其中，可变维度变化处理包括但不限于以下维度，也包括可变维度的组合变化：宽度变化处理、深度变化处理、卷积核大小变化处理、attention head的数量变化处理以及embedding维度变化处理。

根据本发明实施例的深度学习模型训练方法，至少具有如下有益效果：本发明实施例的方法通过将深度学习模型和训练流程进行改造，实现一次训练即可满足不同算力平台部署的需求。

根据本发明的一些实施例，所述宽度变化处理包括：根据采样策略对所述深度学习模型的N种变换中采样多次变换生成多个新层，将第i次变换生成的层各自串联，形成多个新的深度学习模型；其中N，i为正整数；其中，所述变换包括对所述深度学习模型的神经网络层的输入宽度和输出宽度做变换，保留第一比例的输入进入神经网络，保留第二比例的输出进入下一层网络。

根据本发明的一些实施例，所述深度变化处理包括：根据采样策略对所述深度学习模型采样不同深度，采样多次，根据采样结果丢弃某些层，保留层各自串联，得到多个新的深度学习模型。

根据本发明的一些实施例，所述深度学习模型做可变维度变化处理并训练包括：训练可变维度变化的深度学习模型，对深度学习模型进行多种可变维度变化处理并训练，具体包括：选取K种可变维度变化处理并排序，其中，K是正整数且K≤5；对已训练的初始深度学习模型进行第1次可变维度变化处理，并训练得到的多个新的深度学习模型，直至总体迭代次数达到预设阈值，得到多个已训练的第1次变化深度学习模型；对第k次变化深度学习模型进行第K+1可变维度变化处理，并训练得到的多个新的深度学习模型，直至总体迭代次数达到预设阈值，得到多个已训练的第K+1次变化深度学习模型；其中，k代表可变维度变化处理次序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于珠高智能科技（深圳）有限公司，未经珠高智能科技（深圳）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210070754.9/2.html，转载请声明来源钻瓜专利网。

上一篇：基于在线监测指标的低压切负荷控制方法
下一篇：一种微藻非接触共培养装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]深度学习模型训练方法、系统及介质在审

专利文献下载