[发明专利]一种稀疏化损失函数的超参数优化方法在审
申请号: | 202010505268.6 | 申请日: | 2020-06-05 |
公开(公告)号: | CN111753954A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 解为成;沈琳琳;吴昊谦 | 申请(专利权)人: | 深圳大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08 |
代理公司: | 深圳市君胜知识产权代理事务所(普通合伙) 44268 | 代理人: | 温宏梅;吴志益 |
地址: | 518060 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 稀疏 损失 函数 参数 优化 方法 | ||
本申请公开了一种稀疏化损失函数的超参数优化方法,所述方法包括:基于训练样本集中的训练图像对预设网络模型进行训练;获取第一代理网络的模型参数,并将模型参数迁移至若干第二代理网络;基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;将所述目标超参数配置于原始网络以及第一代理网络。本申请实施例通过第一代理网络与原始网络联合训练,使得第一代理网络可以很好的逼近原始网络,然后在通过若干第二代理网络对超参数进行训练,使得超参数可以适应于不同数据库,从而降低了采用稀疏策略的网络模型的时间复杂度。
技术领域
本申请涉及深度学习技术领域,特别涉及一种稀疏化损失函数的超参数优化方法。
背景技术
深度网络稀疏化度量方法已经广泛地应用于深度识别网络中,以提升网络的泛化能力,并减小网络的规模。但是,不同的稀疏策略可能仅适用于特定的数据库,尽管多稀疏策略的融合可以平衡不同数据库的性能,然而在网络于各个数据库上进行训练之前,需要给定每个数据库对应的稀疏项正则化系数。不仅如此,每种稀疏策略都会引入多个超参数,而网络每次训练都往往需要大量的计算资源,因此多稀疏策略的融合方法很容易导致较大的时间复杂度。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种稀疏化损失函数的超参数优化方法。
为了解决上述技术问题,本申请实施例第一方面提供一种稀疏化损失函数的超参数优化方法,所述方法包括:
基于训练样本集中的训练图像对预设网络模型进行训练,其中,所述预设网络模型包括原始网络以及原始网络对应的第一代理网络;
获取所述第一代理网络的模型参数,并将所述模型参数迁移至若干第二代理网络,其中,各第二代理网络均为原始网络的代理网络;
基于训练样本集中的训练图像分别对各第二代理网络进行训练,并根据训练后的各第二代理网络模型确定目标超参数;
将所述目标超参数配置于原始网络以及第一代理网络,并继续执行基于预设的训练样本集中的训练图像对预设网络模型进行训练的步骤,直至所述预设网络模型的训练情况满足预设条件。
在一个实施例中,所述原始网络的输入项以及输出项均与目标代理网络的输入项和输出项相同,且原始网络的最后卷积层输出的特征图的图像尺度与目标代理网络的最后卷积层输出的特征图的图像尺度相同,其中,所述目标代理网络包括第一代理网络以及若干第二代理网络。
在一个实施例中,所述预设网络模型的训练过程包括原始网络训练过程和第一代理网络训练过程,其中,所述原始网络训练过程具体包括:
基于原始网络确定训练样本集中训练样本对应的第一预测概率集,并基于第一预设概率集确定原始网络对应的第一损失函数,其中,所述第一损失函数包括概率集损失项、特征稀疏化损失项、权重稀疏化损失项、特征失活损失项以及权重失活损失项;
基于所述第一损失函数对所述原始网络进行训练。
在一个实施例中,所述原始网络包括第一全连接层和第二全连接层;所述第一代理网络包括第三全连接层和第四全连接模块;所述第一代理网络训练过程具体包括:
将训练样本集中的训练样本输入第一代理网络,输出所述训练样本对应的第一特征图,第二特征图以及第二预测概率集,其中,所述第一特征图为第三全连接层的输入项,第二特征图为第四全连接层的输入项;
基于所述第一特征图和第三特征图确定第一损失项,其中,所述第三特征图为第一全连接层的输入项;
基于所述第二特征图和第四特征图确定第二损失项,其中,所述第四特征图为第二全连接层的输入项;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳大学,未经深圳大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010505268.6/2.html,转载请声明来源钻瓜专利网。