[发明专利]一种基于改进Levenberg-Marquardt的径向基神经网络优化方法在审
申请号: | 202111433963.7 | 申请日: | 2021-11-29 |
公开(公告)号: | CN113962369A | 公开(公告)日: | 2022-01-21 |
发明(设计)人: | 杨彦霞;王普;高学金 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/06;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张立改 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 改进 levenberg marquardt 径向 神经网络 优化 方法 | ||
1.一种基于改进Levenberg-Marquardt的径向基神经网络优化方法,其特征在于:
A典型样本(TS)选取:
TS是一个小批量的样品集,用来近似样本整体,TS表示如下
TS={(xn,yn,an,bn),n=1,2,…,N,} (1)
式中,N表示TS的大小,即现有样本个数。xn,yn,an,bn分别为TS中第n个样本的输入向量、输出、活度和密度;两个样本之间的欧氏距离为
Ei,j=||xi-xj||+||yi-yj|| (2)
其中,1≤i,j≤N;典型样本中的样本应具有足够的多样性,用该样本与其他样本之间的最小距离来表示,即第i个样本的多样性为
Di=min(Ei,1,Ei,2,…,Ei,i-1,Ei,i+1,…,Ei,N) (3)
式中,min(·)表示取最小值,Ei,1表示第i个样本与第1个样本的欧氏距离;同理,括号内分别给出了第i个样本与第2,3,…,N个样本的欧式距离;新的样品到达时,TS更新如下:
step1添加样品:当TS中的样本数小于Nmax时,将此新样本直接添加到TS中,参数设置为
式中,Nmax为预定义的TS最大值,即样本容量;xnew和ynew为新样本的输入和输出;除此新样本外,其他样本的活性值降1;
step2删除样本:将活性值为0的样本从TS中删除;
step3合并相似样本:当TS中的样本数大于Nmax时,将差异最小的两个样本进行合并;假设第i和第j个样本间差异最小即min(Ei,j)且满足1i≠jN;合并后新样本的参数为
amerge=max(ai,aj) (5)
bmerge=bi+bj (6)
xmerge=xi,ymerge=yi if Di,-jDj,-i (7)
xmerge=xj,ymerge=yj if Di,-j≥Dj,-i (8)
式中,max(·)表示取最大值,amerge、bmerge分别表示i、j合并后的样本活度和密度,Di,-j为删除第j个样本后第i个样本的多样性,则将第i个样本的输入和输出赋值给合并后样本的输入xmerge和输出ymerge;
B改进的LM参数优化方法:
1)首先,给出传统基于LM方法的参数更新表达式
式中,cji,t+1表示t+1时刻第j个隐层神经元中第i个元素的中心,σj,t+1,wj,t+1分别表示t+1时刻第j个隐层神经元的宽度和输出权值,Qt为t时刻的拟Hessian矩阵,I为与Qt大小相同的单位矩阵,μ表示学习因子,[·]-1表示矩阵的逆,为易于理解和描述,[·]-1在本申请中称作参数更新的学习率,简称为学习率;Et=(ot-yt)2/2表示网络的代价函数;ot和yt分别表示t时刻模型输出和样本真实输出;
基于代价函数Et对中心c、宽度σ和权值w的二阶偏导数,得到拟Hessian矩阵Qt
式中,et=ot-yt表示t时刻模型输出(ot)和样本真实输出(yt)之间的偏差;cj,i表示第j个隐层神经元第i个元素的中心,例cK,1表示第K个隐层神经元的第1个元素的中心,K为隐层神经元的个数;wj表示第j个隐层神经元与输出层之间的权值;综和公式(9)-(10),可得
且
式中,Ai,j表示公式(11)中矩阵第i行第j列元素的代数余子式,例如A1,1表示公式(11)中矩阵的第一个元素(第一行第一列)的代数余子式;D表示输入维度,与每个隐层神经元中心的维度相同,由于每个隐层神经元具有中心cj=[cj,1,cj,2,…,cj,D;j=1,2,…,K]、σj wj共(D+2)个参数需要更新(D和K分别表示网络的输入维度和隐层神经元个数),故拟Hessian矩阵Qt为(D+2)×K阶的方阵;将代数余子式进一步展开可得
在公式(13)中,我们可以观察到当行列式的值为零时,公式(11)中的分母为0,即学习率的奇点,因此,LM算法在进行参数更新时不能保证是稳定的;
2)为了实现RBFNN中参数的快速、有效学习,并保证模型的稳定性,本节提出了改进的LM算法;改进的LM算法表达式为
其中,βMLM,t为本申请定义的学习超参数,即新的学习率,意在消除传统方法中的奇点(公式(11)中分母为0的点),
为书写简便,下面给出公式(16)部分具体表达式
将公式(17)各等号后面部分进一步展开详细计算可得
其中,cji,t表示t时刻第j个隐层神经元中第i个元素的中心;σj,t,wj,t分别表示t时刻第j个隐层神经元的宽度和输出权重,表示第j个隐藏神经元在t时刻的输出,xt=[x1,t,x2,t,…,xi,t;i=1,2,…D]表示t时刻的网络输入,D为输入样本的维度,例如:xi,t表示t时刻的第i个输入元素。ct=[c1,t,c2,t,…,cj,t;j=1,2,…,K]表示t时刻K个隐层神经元的中心向量,且cj,t=[cj1,t,cj2,t,…,cji,t;i=1,2,…,D]为第j个隐藏神经元在t时刻的中心向量,上式描述了改进的LM算法。联立公式(16-18)可以看出,该算法利用模型参数组合重新定义学习率,使得在求解拟Hessian行列式时不存在分母为0的点,消除了奇异点,保证了模型的稳定性;
C多步更新规则:
为进一步降低计算复杂度,克服训练样本带来的网络不稳定问题,提出了一种基于TS的多步更新规则;
step1外部循环更新参数;TS中的拟Hessian矩阵和梯度为
式中,QTS,t表示典型样本TS在t时刻的拟Hessian矩阵,gTS,t表示典型样本TS在t时刻的梯度,jn,t为t时刻第n个训练样本的雅克比子矩阵;en,t=on,t-yn,t表示t时刻典型样本TS中第n个样本的模型输出on,t和样本真实输出yn,t之间的偏差;δn,t表示t时刻第n个训练样本的调节参数,由当前样本的活度和密度共同决定,即
式中,an,t和bn,t分别表示t时刻第n个样本的活度和密度;
step2内部循环更新参数;当前样本的拟Hessian矩阵和梯度为
Qcur,t,m=jcur,t,mTjcur,t,m (22)
gcur,t,m=jcur,t,mTecur,t,m (23)
式中,jcur,t,m和ecur,t,m分别表示t时刻第m次更新当前有效样本的雅可比子矩阵和输出误差;
step3综合更新参数;为降低单个样本引入的样本误差,每一次迭代更新得到LM算法的更新矩阵为
Qt,m=QTS,t+Qcur,t,m (24)
gt,m=gTS,t+gcur,t,m (25)。
2.按照权利要求1所述的一种基于改进Levenberg-Marquardt的径向基神经网络优化方法,其特征在于:
具体实现过程即MLM-RBFNN的学习过程如下:
其中,θ(c,σ,w)表示需要更新的参数c,σ,w的集合,即cji,t、σj,t、wj,t,且满足j=1,2,…,K和i=1,2,…,D;即θt,m表示t时刻第m次循环后所有参数的值,M为内循环的最大循环次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111433963.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗收缩超高韧性混凝土及制备方法
- 下一篇:钢轨表面上漆装置和钢轨上漆系统