[发明专利]一种基于强化学习和李雅普诺夫函数的鲁棒控制方法有效

申请号：	201911260424.0	申请日：	2019-12-10
公开（公告）号：	CN110928189B	公开（公告）日：	2022-04-29
发明（设计）人：	潘杰森;郑磊;成慧;胡海峰	申请（专利权）人：	中山大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	陈伟斌
地址：	510275 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习李雅普诺夫函数鲁棒控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习和李雅普诺夫函数的鲁棒控制方法，其特征在于，包括以下步骤：

步骤一：构建仿射系统模型，然后基于高斯过程，对系统动力学模型存在的不确定性进行建模；高斯过程回归通过贝叶斯推理得到机器人状态s_*；仿射系统建模为：其中f(s)+g(s)a代表对系统动力学、运动学建模所得的先验模型，d(s)代表模型与真实环境的偏差；

通过在线收集的数据集高斯过程回归通过贝叶斯推理得到状态s_*的下偏差d(s_*)的均值和方差：

其中，k(s_i,s_j)是GP中所定义的核函数，k_n＝[k(s₁,s_*),k(s₂,s_*),...,k(s_n,s_*)]，[K]_i,j＝k(s_i,s_j)为核矩阵，是标签向量，σ_noise是标签数据噪音的标准差，I为单位矩阵；

得到关于d(s)的高置信区间：

D(s)＝{d(s)|μ(s)-c_δσ(s)≤d(s)≤μ(s)+c_δσ(s)}

其中μ(s)是偏差d(s)的均值，σ(s)是偏差d(s)的标准差，c_δ0是高斯分布中(1-δ)置信度对应的常数

步骤二：构建全连接神经网络，以机器人状态s为神经网络的输入，以机器人动作a为神经网络的输出；

步骤三：获取机器人当前时刻的状态s_t和奖励r_t，构建模型预测控制框架和强化学习算法为基准策略得到机器人动作，通过模型预测控制框架求解固定时域H内最大化累积奖励的动作序列，并将动作序列的第一个动作a_t作为策略的输出u_rl；模型预测控制框架求解固定时域H内最大化累积奖励的动作序列的具体公式为：

其中，为t+h时刻的奖励值，为t至t+H时刻的动作序列；

步骤四：步骤二中的全连接神经网络以当前时刻状态s_t作为输入，得到输出u_nn；

步骤五：构建控制李雅普诺夫函数并结合高斯过程，将机器人状态渐进收敛到设置的平衡点，在高置信度下保证基准策略的稳定性；构建控制屏障函数并结合高斯过程，在高置信度下将机器人探索和动作空间约束在安全可行域内，且将不安全域内的状态渐进收敛到安全域内，通过联合控制李雅普诺夫函数和控制屏障函数构建不等式约束的二次规划问题，并得到最佳动作u_{cbf_clf}；不等式约束的二次规划问题的具体公式为：

s.t.-L_gh(s)a-L_fh(s)-L_μh(s)+c_σ|L_σh(s)|-κh(s)≤ε,-L_gV(s)a-L_fV(s)-L_μV(s)+c_σ|L_σV(s)|-κV(s)≤η,a_min≤a≤a_max,