[发明专利]一种模型训练方法、装置、设备、系统及存储介质在审

申请号：	201911048084.5	申请日：	2019-10-30
公开（公告）号：	CN110766090A	公开（公告）日：	2020-02-07
发明（设计）人：	欧阳显斌;周飞虎;魏杰乾	申请（专利权）人：	腾讯科技(深圳)有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00
代理公司：	44285 深圳市深佳知识产权代理事务所(普通合伙)	代理人：	王兆林
地址：	518057 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	训练阶段模型训练最优模型初始模型迭代更新模型网络训练效果综合性能递进整合优化搜索阶层评估申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请提供的一种模型训练方法，在该方法中将模型训练阶段先划分成多个连续的训练阶段，在每个训练阶段中既着重于模型网络参数的迭代更新同时又着重于针对特定超参数的优化搜索，如此就能够使得每个训练阶段训练结束后的模型能够具备特定超参数的最优能力，每个训练阶段训练结束后会自动将当前训练阶段训练所得的最优模型作为下一训练阶段的初始模型，采用这种阶层递进地方式进行训练，使得最后一个训练阶段训练所得最优模型就整合了所有特定超参数的最优能力，而且超参数的优化过程是在模型正常训练流程中进行，并不需额外花费过多时间，如此就能够很好地评估训练时间和训练效果，能够在指定时间内训练得到综合性能最优的模型。

技术领域

本申请涉及机器学习技术领域，尤其涉及一种模型训练方法、装置、设备、系统及存储介质。

背景技术

强化学习(Deep Reinforcement Learning,DRL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。

但是强化学习方法目前还存在一些问题，其中，超参数设定问题由于直接影响学习的效率和质量，因而具有重要的研究价值。一般情况下，基于深度强化学习方法往往需要数十几天时间和数台设备资源才能训练得到性能优秀的模型，而传统的训练方式是从头到尾固定一组超参数的值进行训练，即超参数在正在训练过程中保持不变，然而，训练过程中保持单一的超参数，将会导致训练所得的模型能力单一。

当然，除了强化学习之外，在有监督学习和无监督学习等场景下会存在上述同样的超参数设定问题，基于此，目前在机器学习场景急需研究一种解决方案以在训练效果和训练时间上寻找平衡点，能够在提高训练效率的同时提高多种超参数在模型中的综合能力，即提高模型能力。

发明内容

本申请实施例提供了一种模型训练方法、装置、设备、系统以及介质，这些方案能够平衡训练效果和训练时间，在模型训练过程中阶段性优化不同的超参数，如此能够使得模型最大化综合各种超参数能力，从而提高模型最终性能。

在本申请第一方面提供了一种模型训练方法，所述方法包括：

确定模型对应的多个连续训练阶段，不同的训练阶段用于在模型训练过程中同步优化不同的超参数；

在所述多个连续训练阶段的当前训练阶段中，根据所述当前训练阶段中待优化的超参数对应的超参数搜索范围进行超参数优化搜索，获得当前训练阶段训练所得的最优模型作为当前训练阶段最优模型；

将所述当前训练阶段最优模型作为下一训练阶段的初始模型，根据所述下一训练阶段中待优化的超参数对应的超参数搜索范围进行超参数优化搜索，获得所述下一训练阶段训练所得的最优模型作为所述下一训练阶段最优模型，直到获得在所述多个连续训练阶段中的最后一个训练阶段训练所得的最优模型。

在本申请第二方面提供了一种模型训练装置，所述装置包括：

确定模块，用于确定模型对应的多个连续训练阶段，不同的训练阶段用于在模型训练过程中同步优化不同的超参数；

第一训练模块，用于在所述多个连续训练阶段的当前训练阶段中，根据所述当前训练阶段中待优化的超参数对应的超参数搜索范围进行超参数优化搜索，获得当前训练阶段训练所得的最优模型作为当前训练阶段最优模型；

第二训练模块，用于将所述当前训练阶段最优模型作为下一训练阶段的初始模型，根据所述下一训练阶段中待优化的超参数对应的超参数搜索范围进行超参数优化搜索，获得所述下一训练阶段训练所得的最优模型作为所述下一训练阶段最优模型，直到获得在所述多个连续训练阶段中的最后一个训练阶段训练所得的最优模型。

在本申请第三方面提供了一种设备，所述设备包括：

存储器和处理器；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司，未经腾讯科技(深圳)有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201911048084.5/2.html，转载请声明来源钻瓜专利网。

上一篇：超网络的模型结构采样方法、装置以及电子设备
下一篇：一种套路贷团伙的识别方法及系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种模型训练方法、装置、设备、系统及存储介质在审

专利文献下载