[发明专利]基于协状态辅助的自适应动态规划最优控制方法及系统有效
申请号: | 202110757749.0 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113359471B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 胡满江;叶俊;边有钢;徐彪;秦晓辉;谢国涛;秦兆博;王晓伟;秦洪懋;丁荣军 | 申请(专利权)人: | 湖南大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 广州容大知识产权代理事务所(普通合伙) 44326 | 代理人: | 刘新年 |
地址: | 410082 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 状态 辅助 自适应 动态 规划 最优 控制 方法 系统 | ||
1.一种基于协状态辅助的自适应动态规划最优控制方法,其特征在于:包括如下步骤:
步骤1,构建自主式水下机器人深度控制中的状态变量、控制变量、转移环境、效用函数和代价函数,状态变量的选取用于描述自主式水下机器人在深度控制问题中的状态信息,控制变量为自主式水下机器人执行机构产生的力和力矩,转移环境的作用是使得自主式水下机器人在当前时刻状态与控制变量的作用下,转移得到下一时刻的状态量,效用函数是为了评价自主式水下机器人在当前时刻状态下采取的控制动作的优劣,代价函数是效用函数沿着状态轨迹的累计,在自主式水下机器人深度控制问题中,目标是使得自主式水下机器人在达到目标深度时所需的代价函数最小;
步骤2,构建基于协状态辅助的自适应动态规划的执行网络、协状态网络和评价网络,用于策略提升和策略评估;
步骤3,基于协状态辅助的自适应动态规划的策略评估过程;
步骤4,基于协状态辅助的自适应动态规划的策略提升过程;
步骤5,重复步骤3~4直至循环迭代次数i大于规定次数或相邻两次外循环之后的代价函数差值|Ji+1(xt,ut,Λt)-Ji(xt,ut,Λt)|小于设定值,迭代循环过程终止;所述步骤2中的执行网络的输入为t时刻下的状态变量x(t),输出为与状态变量x(t)对应的控制变量u(t);协状态网络的输入为状态变量x(t)和执行网络的输出u(t),输出为与状态变量x(t)对应的协状态评价网络的输入为状态变量x(t)、执行网络的输出u(t)和协状态Λ(t),输出为t时刻下状态行为对x(t),u(t)对应的代价函数J(xt,ut,Λt)的近似值;所述步骤3中需要对代价函数J(xt,ut,Λt)和协状态Λ(xt,ut)进行估计,具体的估计步骤如下:
步骤31,固定一个给定的控制律u(xt),使用协状态网络的输出Λ(x,u)和转移模型f(·),依据式子进行协状态函数更新;
步骤32,使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子进行代价函数更新,其中,第i次循环迭代时,实际会进行多次协状态函数Λ(xt,ut)与代价函数J(xt,ut,Λt)相互迭代过程,即每次外循环i会包括多次内循环j;
步骤33,最终将协状态与代价函数共同收敛;所述步骤4中策略提升过程具体为使用评价网络的输出J(x,u,Λ)和转移模型f(·),依据式子进行策略提升,策略提升目标为使得J(xt,ut,Λt)值更小。
2.根据权利要求1所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤3中的协状态估计为
其中i为外循环迭代次数;xt表示t时刻状态量;ut表示t时刻控制量;γ为折扣因子;U(xt,ui(xt))为t时刻关于xt与ut的效用函数;Λi,j(xt,ut)为第i次外循环第j次迭代时协状态函数的近似值。
3.根据权利要求2所述的基于协状态辅助的自适应动态规划最优控制方法,其特征在于:所述步骤3中的代价函数估计为
其中,Ji,j(xt,ut,Λt)为第i次外循环第j次迭代时代价函数的近似值,在评估代价函数时,增加协状态量作为评估代价函数J(x,u,Λ)的辅助变量,会较于传统只有xt和ut作为输入的策略评估更为准确。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110757749.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种血人参提取物在制备美白祛斑制剂方面的应用
- 下一篇:一种寄生式涡轮发电机