[发明专利]一种多智能体一致性强化学习控制方法有效

申请号：	202111333034.9	申请日：	2021-11-11
公开（公告）号：	CN114200830B	公开（公告）日：	2023-09-22
发明（设计）人：	李金娜;袁林	申请（专利权）人：	辽宁石油化工大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	沈阳天赢专利代理有限公司 21251	代理人：	李荣新
地址：	113001 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种智能一致性强化学习控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多智能体一致性强化学习控制方法，基于如下多智能体系统跟随者模型：

其中，代表智能体i的第j阶的状态，f(x_i)为连续非线性函数，u_i(t)为控制输入，d_i(t)为未知干扰；

所述多智能体系统中领导者动力学方程为：

其中，代表领导者的第j阶的状态，f(x₀)为连续非线性函数，d₀(t)为未知干扰；

N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息；

其特征在于包括以下步骤：

步骤1：由所述多智能体系统模型，定义智能体i的第j个分量的局部邻居误差：

其中，a_ij为智能体i与智能体j之间的权重，b_i为智能体i与领导者的权重，Π为拓扑图中智能体j到智能体i的所有拓扑关系的总和；

步骤2：通过式(3)得到智能体i的局部邻居误差系统方程：

步骤3：定义虚拟控制器：V_i^ι(t)＝f(x_i)+u_i(t)； (5)

步骤4：根据实际多智能体之间通信存在的时滞，构建公式，定义如下：

其中，复合控制器为分布式最优控制器，为分布式积分滑模控制器，为智能体j具有时滞信息的虚拟控制器，τ为通信时滞；

步骤5：N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量形式为：

其中，δ_i(t)为智能体i的状态误差向量，为智能体i的复合控制器，为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t-d_j(t))+b_i(d_i(t)-d_j(t)；

步骤6：设计分布式积分滑模控制器；

所述步骤6设计分布式积分滑模控制器包括以下步骤：

步骤6.1：对所述分布式积分滑模控制器，选用积分滑模面为：

其中，δ_i为智能体i的状态误差向量，S_i(δ_i)为滑模函数，S_i0(δ_i)为关于δ_i(t)的函数，S_i0(δ₀)为常数，

步骤6.2：根据所选积分滑模面式(8)设计分布式积分滑模控制器为：

其中，β(0＜β＜1)为通信时滞系数，定义R_i(t)的导数：σ₀(σ₀＞0)为常数，sgn(·)为符号函数，为关于智能体j的虚拟控制器，Δ_ij(t)＝∑a_ij(d_i(t)-d_j(t))+b_i(d_i(t)-d_j(t)；

步骤7：设计分布式最优控制器；

所述步骤7设计分布式最优控制器包括以下步骤：

步骤7.1：当智能体达到滑模面时，设计式(10)的等效控制器为：

步骤7.2：智能体达到滑模面后，式(7)则为：

步骤7.3：提出如下性能指标：

其中，γ_i为折扣因子，Q_i≥0为半正定矩阵，R_i＞0为正定矩阵；

步骤7.4：基于所提出的性能指标，定义其值函数为：

步骤7.5：根据最优控制理论，提出如下哈密尔顿函数：

有如下HJB方程：

步骤7.6：得到分布式最优控制器：

所述HJB方程采用基于策略迭代强化学习算法的Actor-Critic神经网络求解，求解过程包括以下步骤：

所述值函数采用Critic神经网络逼近：

其中，表示Critic神经网络估计权值，φ_i(δ_i)为神经网络激活函数；

所述分布式最优控制器采用Actor神经网络估计：

其中，表示Actor神经网络估计权值，为激活函数的导数；

所述Critic神经网络估计权值采用如下方程更新：

其中，为Critic神经网络的学习率；

所述Actor神经网络估计权值采用如下方程更新：

其中，为Actor神经网络的学习率，G_i1与G_i2为可调参数；

所述分布式积分滑模控制器具有自适应学习能力，分布式积分滑模控制器的自适应学习算法，包括以下步骤：

S1：初始化；

S2：计算

S3：计算分布式滑模面：S_i(δ_i(t))；

S4：计算分布式积分滑模控制器：

S5：计算复合控制器：

S6：由式(6)计算

S7：计算实际控制器：

S8：计算值函数：

S9：更新Critic神经网络权值；

S10：更新Actor神经网络权值；

S11：重复步骤S2-S10，直到收敛。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学，未经辽宁石油化工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111333034.9/1.html，转载请声明来源钻瓜专利网。

上一篇：基于改进相位差算法的自适应光学系统
下一篇：一种铬铁碱氧化反应釜用高压机械密封装置

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种多智能体一致性强化学习控制方法有效

专利文献下载