[发明专利]基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法在审

申请号：	202110219290.9	申请日：	2021-02-26
公开（公告）号：	CN112987573A	公开（公告）日：	2021-06-18
发明（设计）人：	崔小红;陈家裕	申请（专利权）人：	中国计量大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	杭州奥创知识产权代理有限公司 33272	代理人：	王佳健
地址：	310018 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习小车倒立系统最优控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法，其特征在于，包括如下步骤：

步骤一，针对小车倒立摆系统的跟踪问题，建立小车倒立摆系统的动态模型，考虑到外部扰动和未建模动态的影响，将小车倒立摆系统抽象成一类连续时间的仿射非线性系统，然后通过状态增维方式构造出小车倒立摆系统的跟踪误差系统和信号产生系统组成的增广系统；

定义增维后的状态向量其中e(t)是跟踪误差，y_m(t)为参考信号，则由跟踪误差系统和信号产生系统构成如下的时不变系统

步骤二，根据对策论的知识，推导相对于步骤一的小车倒立摆增广系统的时变跟踪HJI方程的解，即最小-最大优化问题的解；

考虑控制器饱和受限的情况，引入非二次型函数改进控制器的惩罚函数代替原来的二次型形式的惩罚函数U₁＝u^TRu，其中λ为控制输入的饱和界；

借助最优控制理论，获得相对于有限时间小车倒立摆系统的H_∞最优跟踪控制问题的最优控制输入和扰动策略；

步骤三，借助贝尔曼方程间接地求解出基于小车倒立摆系统的HJI方程的解；提出不依赖于小车倒立摆动力学模型的离策强化学习算法，

所述的离策强化学习算法如下：

选取初始的控制输入u⁽⁰⁾，扰动策略ω⁽⁰⁾，进行步骤1、2的迭代

步骤1.求解时变的积分跟踪贝尔曼方程,解出(V^(j+1),u^(j+1),ω^(j+1))

满足其中为终端约束函数；

步骤2.令j＝j+1，如果||V^(j)-V^(j-1)||≤ε,停止并且输出值V^(j),用来作为最优的值函数V^*,否则,返回到步骤1并继续；

通过加入探测信号e₁和e₂到小车倒立摆系统的控制输入和扰动策略中，用此放松对倒立摆系统模型完全已知的需求；

步骤四，实现步骤三设计的倒立摆系统的离策强化学习算法，应用评价-执行-扰动神经网络结构去分别近似控制输入u，值函数V和扰动ω，其中三种神经网络均采用BP神经网络，结构如下

其中W_c,W_a,W_ω分别是评价网,执行网和扰动网的理想的神经网络权重值，分别是评价网,执行网和扰动网的有界的时变的神经网络激活函数；ε_c(ξ,t),ε_a(ξ,t)),ε_ω(ξ,t)是神经网络重建误差；

采用具有常数权重和时变激活函数的神经网络形式来近似时变的值函数，控制输入和扰动策略；并应用离策强化学习作用到倒立摆系统中，抑制扰动对系统的影响，实现小车倒立摆系统有限时间的H_∞最优跟踪控制。

2.如权利要求1所述的基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法，其特征在于，

步骤二中小车倒立摆系统的H_∞控制问题是一类最小-最大优化问题，此问题可通过求解二人零和问题得到解决，其中扰动ω和控制输入u可以看作博弈的二人，二人分别制定策略达到最大化和最小化自己的利益这样的目的。

3.如权利要求1所述的基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法，其特征在于，

步骤三中，离策强化学习算法无需倒立摆系统的动态模型知识，主要应用评价-执行-扰动神经网络结构，执行网和扰动网络的常数增益值在离散的采样时刻利用得到的新的状态信息进行更新，而执行神经网络实时对系统进行控制。

4.如权利要求1所述的基于离策强化学习的小车倒立摆系统的鲁棒最优控制方法，其特征在于，

步骤四中，对于有限时间的小车倒立摆的最优控制问题，值函数的时变特点和终端约束条件都要考虑；在设计神经网络权重更新率时，要同时考虑残差误差和终端误差；选取合适的采样时间间隔T，使得采样时间间隔T满足设定条件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国计量大学，未经中国计量大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110219290.9/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载