[发明专利]一种DNN层深关联学习率动态学习方法在审
申请号: | 201911392526.8 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111105036A | 公开(公告)日: | 2020-05-05 |
发明(设计)人: | 朱锦雷;井焜;孙涛;张传锋 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06N3/08 | 分类号: | G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 dnn 关联 学习 动态 学习方法 | ||
本发明公开一种DNN层深关联学习率动态学习方法,本方法为DNN所有带参网络层均增加一个只调节本层学习速率的学习参数LLR,LLR的初始值通过手动设定,基于现有的损失函数在训练过程中动态调整LLR数值,并且各层的LLR数值在调整过程中遵循曲线冲击调整方法,即学习参数在调整时,学习参数的调整曲线随训练次数震荡,并且震荡区间随着训练次数增加而逐步递减。本发明可以克服不同网络层对参数的收敛幅度要求不同,及各网络层自身学习速率自适应动态调整的问题。
技术领域
本发明涉及一种DNN层深关联学习率动态学习方法,属于图像处理与人工智能技术领域。
背景技术
在基于卷积网络的深度学习系统中,学习速率是指导我们该如何通过损失函数的梯度调整网络权重的超参数。学习率越高,损失函数导致的参数变化速度就越快,但随着训练的深入进行,客观上参数需要调整的幅度会逐渐变小,高学习率必然会带来参数收敛震荡,即无法到达损失函数的最小值。学习率越低,损失函数导致的参数变化速度就越慢,低学习率可以确保我们不会错过任何局部极小值,但也意味着我们将花费更长的时间来进行收敛,特别是在被困在高原区域的情况下,可能导致算法陷入局部最优。
针对以上问题,目前采用的方法包括离散下降、指数减缓、分数减缓等,这些方法的基本思路均是随着训练层次数的增加以线性、指数、震荡曲线等方式逐步变小学习率,以增加训练模型的精度。但现有方法存在三个典型的问题:一是DNN不同深度对学习速率的需求是不同的,输入端网络层代表细节特征(相对高学习率较好),输出端网络层代表抽象特征(相对低学习率较好),而现有的学习率是DNN网络全局统一设定的;二是学习率参数目前基本是手动设定的,由于不同深度网络层对学习速率的需求是不一样的,让深度学习算法通过训练及损失函数确定不同网络层学习速率参数是最好的选择;三是即使采用损失函数方法来确定各网络层学习速率参数,最佳的方法仍然是冲击调整方法,即学习速率参数在调整时,学习速率参数的调整曲线随训练次数震荡,并且震荡区间范围随着逐步递减。
发明内容
本发明要解决的技术问题是提供一种DNN层深关联学习率动态学习方法,克服不同网络层对参数的收敛幅度要求不同,及各网络层自身学习速率自适应动态调整的问题。
为了解决所述技术问题,本发明采用的技术方案是:一种DNN层深关联学习率动态学习方法,本方法为DNN所有带参网络层均增加一个只调节本层学习速率的学习参数LLR,LLR的初始值通过手动设定,基于现有的损失函数在训练过程中动态调整LLR数值,并且各层的LLR数值在调整过程中遵循曲线冲击调整方法,即学习参数在调整时,学习参数的调整曲线随训练次数震荡,并且震荡区间随着训练次数增加而逐步递减。
进一步的,所述带参网络层指DNN网络中需要通过训练确定参数的层,包括卷积层、池化层、缩放层、归一化层、叠加层和全连接层。
进一步的,学习参数的调整曲线为衰减型周期震荡学习曲线,包括衰减的三角曲线和正弦曲线。
进一步的,所述学习参数的调整曲线为:
LLRF(N)= (1/2)*(F1(N)-F2(N))*sin(w*N)+(1/2)*(F1(N)+F2(N)),
其中,F1(N)、F2(N)为两个衰减型指数,
F1(N)= b*exp(-a*N),
F2(N)= c*exp(-d*N),
a、b、c、d、w为常数,N为训练迭代次数。
进一步的,基于现有的损失函数在训练过程中动态调整LLR数值的过程为:损失函数对LLR进行求导,求导结果记为▽,则LLR(k)=LLR(k-1)-LLRF(k)*▽,即第k次迭代调整时LLR值为上次LLR值减去LLRF(k)*▽,LLRF(k)为第k次迭代调整时学习参数调整曲线对应的取值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911392526.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:检索和相似度分析一体化的方法、装置和存储介质
- 下一篇:机器人二次开发方法