[发明专利]一种基于强化学习和李雅普诺夫函数的鲁棒控制方法有效
申请号: | 201911260424.0 | 申请日: | 2019-12-10 |
公开(公告)号: | CN110928189B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | 潘杰森;郑磊;成慧;胡海峰 | 申请(专利权)人: | 中山大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 陈伟斌 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 李雅普诺夫 函数 鲁棒控制 方法 | ||
1.一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,包括以下步骤:
步骤一:构建仿射系统模型,然后基于高斯过程,对系统动力学模型存在的不确定性进行建模;高斯过程回归通过贝叶斯推理得到机器人状态s*;仿射系统建模为:其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型,d(s)代表模型与真实环境的偏差;
通过在线收集的数据集高斯过程回归通过贝叶斯推理得到状态s*的下偏差d(s*)的均值和方差:
其中,k(si,sj)是GP中所定义的核函数,kn=[k(s1,s*),k(s2,s*),...,k(sn,s*)],[K]i,j=k(si,sj)为核矩阵,是标签向量,σnoise是标签数据噪音的标准差,I为单位矩阵;
得到关于d(s)的高置信区间:
D(s)={d(s)|μ(s)-cδσ(s)≤d(s)≤μ(s)+cδσ(s)}
其中μ(s)是偏差d(s)的均值,σ(s)是偏差d(s)的标准差,cδ0是高斯分布中(1-δ)置信度对应的常数
步骤二:构建全连接神经网络,以机器人状态s为神经网络的输入,以机器人动作a为神经网络的输出;
步骤三:获取机器人当前时刻的状态st和奖励rt,构建模型预测控制框架和强化学习算法为基准策略得到机器人动作,通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列,并将动作序列的第一个动作at作为策略的输出url;模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为:
其中,为t+h时刻的奖励值,为t至t+H时刻的动作序列;
步骤四:步骤二中的全连接神经网络以当前时刻状态st作为输入,得到输出unn;
步骤五:构建控制李雅普诺夫函数并结合高斯过程,将机器人状态渐进收敛到设置的平衡点,在高置信度下保证基准策略的稳定性;构建控制屏障函数并结合高斯过程,在高置信度下将机器人探索和动作空间约束在安全可行域内,且将不安全域内的状态渐进收敛到安全域内,通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题,并得到最佳动作ucbf_clf;不等式约束的二次规划问题的具体公式为:
s.t.-Lgh(s)a-Lfh(s)-Lμh(s)+cσ|Lσh(s)|-κh(s)≤ε,-LgV(s)a-LfV(s)-LμV(s)+cσ|LσV(s)|-κV(s)≤η,amin≤a≤amax,
其中,V(s),h(s)分别为能量函数和屏障函数,a是机器人动作,amax,amin则对应其上界与下界,对角矩阵H(s)代表每一维动作的权重,ε,η代表松弛变量而Kε,Kη则是对应的系数,cσ是方项对应的系数,符号L代表李氏导数,κ是一个k类函数;
步骤六:将机器人动作at=url+unn+ucbf_clf应用于机器人的与环境的交互中;
步骤七:在线收集控制李雅普诺夫函数和控制屏障函数策略的状态和动作序列,训练全连接神经网络;
步骤八:在线收集机器人与环境交互的状态和动作序列,更新高斯过程;
步骤九:重复步骤三至步骤八直至交互结束。
2.根据权利要求1所述的一种基于强化学习和李雅普诺夫函数的鲁棒控制方法,其特征在于,在所述步骤三中,所述强化学习算法基于交叉熵方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911260424.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗氧化组合物及其应用
- 下一篇:一种高速起降防坠飞机
- 控制系统的李雅普诺夫指数谱的计算方法
- 一种基于非对称时不变障碍李雅普诺夫函数的四旋翼飞行器输出受限反步控制方法
- 一种基于非对称时变障碍李雅普诺夫函数的四旋翼飞行器输出受限反步控制方法
- 一种基于对称时变障碍李雅普诺夫函数的四旋翼飞行器输出受限反步控制方法
- 一种基于对称时不变障碍李雅普诺夫函数的四旋翼飞行器全状态受限反步控制方法
- 基于对称时变正切型约束李雅普诺夫函数的四旋翼飞行器输出受限控制方法
- 基于对称时不变正切型约束李雅普诺夫函数的四旋翼飞行器输出受限控制方法
- 基于非对称时不变正切型约束李雅普诺夫函数的四旋翼飞行器全状态受限控制方法
- 基于对称时不变正切型约束李雅普诺夫函数的四旋翼飞行器全状态受限控制方法
- 基于对称时变反正切型约束李雅普诺夫函数的四旋翼飞行器输出受限控制方法