[发明专利]一种基于改进Levenberg-Marquardt的径向基神经网络优化方法在审

申请号：	202111433963.7	申请日：	2021-11-29
公开（公告）号：	CN113962369A	公开（公告）日：	2022-01-21
发明（设计）人：	杨彦霞;王普;高学金	申请（专利权）人：	北京工业大学
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/06;G06N3/08
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张立改
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于改进 levenberg marquardt 径向神经网络优化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于改进Levenberg-Marquardt的径向基神经网络优化方法，其特征在于：

A典型样本(TS)选取：

TS是一个小批量的样品集，用来近似样本整体，TS表示如下

TS＝{(x_n,y_n,a_n,b_n),n＝1,2,…,N,} (1)

式中，N表示TS的大小，即现有样本个数。x_n，y_n，a_n，b_n分别为TS中第n个样本的输入向量、输出、活度和密度；两个样本之间的欧氏距离为

E_i,j＝||x_i-x_j||+||y_i-y_j|| (2)

其中，1≤i，j≤N；典型样本中的样本应具有足够的多样性，用该样本与其他样本之间的最小距离来表示，即第i个样本的多样性为

D_i＝min(E_i,1,E_i,2,…,E_i,i-1,E_i,i+1,…,E_i,N) (3)

式中，min(·)表示取最小值，E_i,1表示第i个样本与第1个样本的欧氏距离；同理，括号内分别给出了第i个样本与第2,3,…,N个样本的欧式距离；新的样品到达时，TS更新如下:

step1添加样品:当TS中的样本数小于N_max时，将此新样本直接添加到TS中，参数设置为

式中，N_max为预定义的TS最大值，即样本容量；x_new和y_new为新样本的输入和输出；除此新样本外，其他样本的活性值降1；

step2删除样本:将活性值为0的样本从TS中删除；

step3合并相似样本:当TS中的样本数大于N_max时，将差异最小的两个样本进行合并；假设第i和第j个样本间差异最小即min(E_i,j)且满足1i≠jN；合并后新样本的参数为

a_merge＝max(a_i,a_j) (5)

b_merge＝b_i+b_j (6)

x_merge＝x_i,y_merge＝y_i if D_i,-jD_j,-i (7)

x_merge＝x_j,y_merge＝y_j if D_i,-j≥D_j,-i (8)

式中，max(·)表示取最大值，a_merge、b_merge分别表示i、j合并后的样本活度和密度，D_i，-j为删除第j个样本后第i个样本的多样性，则将第i个样本的输入和输出赋值给合并后样本的输入x_merge和输出y_merge；

B改进的LM参数优化方法：

1)首先，给出传统基于LM方法的参数更新表达式

式中，c_ji,t+1表示t+1时刻第j个隐层神经元中第i个元素的中心，σ_j,t+1，w_j,t+1分别表示t+1时刻第j个隐层神经元的宽度和输出权值，Q_t为t时刻的拟Hessian矩阵,I为与Q_t大小相同的单位矩阵,μ表示学习因子，[·]^-1表示矩阵的逆，为易于理解和描述，[·]^-1在本申请中称作参数更新的学习率，简称为学习率；E_t＝(o_t-y_t)²/2表示网络的代价函数；o_t和y_t分别表示t时刻模型输出和样本真实输出；

基于代价函数E_t对中心c、宽度σ和权值w的二阶偏导数,得到拟Hessian矩阵Q_t

式中，e_t＝o_t-y_t表示t时刻模型输出(o_t)和样本真实输出(y_t)之间的偏差；c_j,i表示第j个隐层神经元第i个元素的中心，例c_K,1表示第K个隐层神经元的第1个元素的中心，K为隐层神经元的个数；w_j表示第j个隐层神经元与输出层之间的权值；综和公式(9)-(10)，可得

且

式中，A_i,j表示公式(11)中矩阵第i行第j列元素的代数余子式，例如A_1,1表示公式(11)中矩阵的第一个元素(第一行第一列)的代数余子式；D表示输入维度，与每个隐层神经元中心的维度相同，由于每个隐层神经元具有中心c_j＝[c_j，1,c_j，2,…,c_j,D；j＝1,2,…,K]、σ_j w_j共(D+2)个参数需要更新(D和K分别表示网络的输入维度和隐层神经元个数)，故拟Hessian矩阵Q_t为(D+2)×K阶的方阵；将代数余子式进一步展开可得

在公式(13)中,我们可以观察到当行列式的值为零时，公式(11)中的分母为0，即学习率的奇点，因此，LM算法在进行参数更新时不能保证是稳定的；

2)为了实现RBFNN中参数的快速、有效学习，并保证模型的稳定性，本节提出了改进的LM算法；改进的LM算法表达式为

其中，β_MLM,t为本申请定义的学习超参数，即新的学习率，意在消除传统方法中的奇点(公式(11)中分母为0的点)，

为书写简便，下面给出公式(16)部分具体表达式

将公式(17)各等号后面部分进一步展开详细计算可得

其中，c_ji,t表示t时刻第j个隐层神经元中第i个元素的中心；σ_j,t，w_j,t分别表示t时刻第j个隐层神经元的宽度和输出权重，表示第j个隐藏神经元在t时刻的输出，x_t＝[x_1,t,x_2,t,…,x_i,t；i＝1,2,…D]表示t时刻的网络输入，D为输入样本的维度，例如：x_i,t表示t时刻的第i个输入元素。c_t＝[c_1,t,c_2,t,…,c_j,t；j＝1,2,…,K]表示t时刻K个隐层神经元的中心向量，且c_j,t＝[c_j1,t,c_j2,t,…,c_ji,t；i＝1,2,…,D]为第j个隐藏神经元在t时刻的中心向量，上式描述了改进的LM算法。联立公式(16-18)可以看出，该算法利用模型参数组合重新定义学习率，使得在求解拟Hessian行列式时不存在分母为0的点，消除了奇异点，保证了模型的稳定性；

C多步更新规则：

为进一步降低计算复杂度，克服训练样本带来的网络不稳定问题，提出了一种基于TS的多步更新规则；

step1外部循环更新参数；TS中的拟Hessian矩阵和梯度为

式中，Q_TS,t表示典型样本TS在t时刻的拟Hessian矩阵，g_TS,t表示典型样本TS在t时刻的梯度，j_n,t为t时刻第n个训练样本的雅克比子矩阵；e_n,t＝o_n,t-y_n,t表示t时刻典型样本TS中第n个样本的模型输出o_n,t和样本真实输出y_n,t之间的偏差；δ_n,t表示t时刻第n个训练样本的调节参数，由当前样本的活度和密度共同决定，即

式中，a_n,t和b_n,t分别表示t时刻第n个样本的活度和密度；

step2内部循环更新参数；当前样本的拟Hessian矩阵和梯度为

Q_cur,t,m＝j_cur,t,m^Tj_cur,t,m (22)

g_cur,t,m＝j_cur,t,m^Te_cur,t,m (23)

式中，j_cur，t，m和e_cur，t，m分别表示t时刻第m次更新当前有效样本的雅可比子矩阵和输出误差；

step3综合更新参数；为降低单个样本引入的样本误差，每一次迭代更新得到LM算法的更新矩阵为

Q_t,m＝Q_TS,t+Q_cur,t,m (24)

g_t,m＝g_TS,t+g_cur,t,m (25)。

2.按照权利要求1所述的一种基于改进Levenberg-Marquardt的径向基神经网络优化方法，其特征在于：

具体实现过程即MLM-RBFNN的学习过程如下：

其中，θ(c,σ,w)表示需要更新的参数c,σ,w的集合，即c_ji,t、σ_j,t、w_j,t，且满足j＝1,2,…,K和i＝1,2,…,D；即θ_t,m表示t时刻第m次循环后所有参数的值，M为内循环的最大循环次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。