[发明专利]一种非线性系统最优控制器的在线学习方法有效
申请号: | 201911396754.2 | 申请日: | 2019-12-30 |
公开(公告)号: | CN111142383B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 李新兴;查文中;王雪源;王蓉 | 申请(专利权)人: | 中国电子科技集团公司信息科学研究院 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京中知法苑知识产权代理有限公司 11226 | 代理人: | 李明;赵吉阳 |
地址: | 100086 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 非线性 系统 最优 控制器 在线 学习方法 | ||
1.一种非线性系统最优控制器的在线学习方法,其特征在于包括如下步骤:
S1.获取控制系统的初始状态、系统状态、控制输入,所述控制系统包括机器人的运动控制系统或无人机的飞行控制系统;
S2.建立连续时间系统模型:
式中,为系统状态,u∈Rm为系统的控制输入,x(0)=x0为系统的初始状态,Ω为状态区域;
S3.定义目标函数:
式中,函数r:Rn×Rm→R为连续的正定函数;
S4.建立最优控制器,最优控制器u*满足如下的HJB方程:
式中,为哈密顿函数,V*为最优控制器u*对应的值函数,即:
S5.建立基于离策略学习的同步策略迭代算法;
S6.对最优控制器进行在线训练学习;
S7.将训练学习得到的最优控制器用于实际被控对象,所述被控对象包括机器人的运动控制系统的控制参数或无人机的飞行控制系统的控制参数;
所述步骤S5包括下列步骤:
S51.行为策略设计,选择一个行为策略并将其应用于系统以生成学习用到的状态x(t);
S52.同步策略评估,在时刻t,对于行为策略和由其生成的状态x(t),定义如下的Q-函数:
在上式的基础上采用时间差分学习方法对最优值函数V*进行估计,根据神经网络的通用近似定理,利用两个评价网络在Ω内对V*和Q-函数分别进行近似,其中,两个神经网络的激活函数的基分别为和N1和N2分别为两个神经网络隐藏层激活函数的个数;设V*和Q-函数的最优近似值分别为和其中,W1和W2分别为隐藏层到输出层的权重;由于W1和W2均未知,用W1(t)和W2(t)分别表示t时刻对W1和W2的估计,用和替换上式中的V*(x(t))和可得如下的时间差分误差e(t):
其中,W(t)=[W1(t)TW2(t)T]T;
采用归一化的梯度下降法对两个评价网络的权重W(t)进行调节:
其中,为评价网络的归一化项,α>0为评价网络的学习率;
S53.策略提高,利用其中一个评价网络的输出对策略进行改进,引入一个执行网络对最优控制器进行近似,其中,执行网络激活函数的构成的基为N3为隐藏层激活函数的个数,为u*的最优近似值,其中,W3为隐藏层到输出层的最优权重,用W3(t)表示t时刻对W3的估计值,用目标策略代替中的行为策略便得到接下来,利用重要性加权的方法对执行网络的权重进行调节:
其中,β>0为执行网络的学习率,Φa(t)=(1+σ3(x(t))Tσ3(x(t)))2为执行网络的归一化项,Ua(t)为执行网络在t时刻的目标值,Ua(t)=0;
当评价网络和执行网络的权重收敛后,算法结束。
2.根据权利要求1所述的非线性系统最优控制器的在线学习方法,其特征在于,所述评价网络和执行网络为具有单个隐藏层的前馈神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国电子科技集团公司信息科学研究院,未经中国电子科技集团公司信息科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911396754.2/1.html,转载请声明来源钻瓜专利网。