[发明专利]一种基于强化学习的模型未知多智能体一致性控制方法有效
申请号: | 202110184288.2 | 申请日: | 2021-02-08 |
公开(公告)号: | CN112947084B | 公开(公告)日: | 2022-09-23 |
发明(设计)人: | 陈刚;林卓龙 | 申请(专利权)人: | 重庆大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400044 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 模型 未知 智能 一致性 控制 方法 | ||
1.一种基于强化学习的模型未知多智能体一致性控制方法,其特征在于:该方法包括以下步骤:
S1:基于强化学习的单智能体最优输出控制;
S2:基于强化学习的多智能体一致性控制;
所述S1具体为:
在设计单智能体的最优控制器时采用非策略强化学习算法在线学习跟踪HJB方程的解,考虑以下系统模型:
其中x,u分别是系统的状态和控制输入,d是外部干扰;假设f(x),g(x),L(x)是Lipchitz函数,且f(0)=0,则系统是鲁棒稳定的;
假设p(t)是所需达成的一致性条件,且满足如下形式:
且有h(0)=0,定义整个系统的跟踪误差为:
联立(1-1)(1-2)(1-3)得:
定义如下虚拟性能输出,使其满足要求:
对系统定义性能函数:
假设系统在u*初满足代价最小化,则有
给定如下贝尔曼方程:
其中,
是为系统所设计的扩增系统;
根据最优化条件以及得最优控制输入及最优干扰输入:
其中V*是在(1-7)中所定义的最优化值函数;
根据(1-10)得到的最优输入条件,得到如下轨迹跟踪的HJB方程:
于是,得到下面单智能体的离线RL算法:
基于RL算法求解HJB方程
步骤11:初始化:给定一个允许的稳定控制策略值u0
步骤12:策略评估:对于一个控制输入ui和一个干扰输入di,使用下面的Bellman方程:
步骤13:更新系统的干扰di:
步骤14:更新系统的输入ui:
步骤15:重新执行步骤11
所述S2具体为:
S21:建立图理论:
设G=(V,E,A)是一个加权图,用来描述N个智能体之间的信息通道;V为跟随者节点{v1,v2,…vN}的非空有限集;为边缘集;为带权邻接矩阵,且当(vi,vj)∈E时,aij>0;若aij=0以及对于所有i=1,2,…N,aij=0;定义Ni={vj∈V:(vi,vj)∈E}表示跟随者vi的邻居跟随者集合,即Ni中的所有跟随者直接发送信息给跟随者vi,定义矩阵D=diag(d1,d2,...,dN)为入度矩阵,其中有向图G=(V,E,A)的拉普拉斯矩阵L=D-A=[lij],其中lij=-aij,拉普拉斯矩阵L的每一行的和为零,即1N为拉普拉斯矩阵L的一个右特征向量,其对应的特征值为零;对于一棵生成树,如果只有一个节点vi,表示有一条从一个节点到图中任何其他节点的有向途径;从每个节点到任何其他节点都有一条有向途径;对于具有生成树的图来说,强连通性是一个充分不必要条件;
S22:问题描述:
考虑由一个领导者和N个跟随者组成的多智能体系统,且考虑的是具有通信有向图G(x)的形式,第i个跟随者的动力学模型为:
其中和分别为第i个跟随者的状态和输入,和分别为第i个跟随者的内部函数和输入矩阵函数,且假设fi(xi),gi(xi)是未知的,有fi(0)=0,系统(2-1)具有鲁棒稳定性;
领导者的动力学模型为:
其中为领导者的状态,未知,D是一个常数矩阵,设其可微,且有界||f(x0)||≤ρ0;
根据每个跟随者与其相邻智能体之间的网络拓补关系将系统的局部领域一致性误差描述如下:
其中且bi≥0,当且仅当bi>0时,第i个智能体与领导者之间才有通信;多智能体系统的一致性信息由局部领域的一致性误差ei来表示,当t→∞时,ei→0,多智能体系统将达成一致;
S23:自适应分布式观测器
通过为每一个跟随者设计自适应分布式观测器,解决在多智能体系统中,领导者状态不可知的情况下,跟随者实时估计领导者的状态,将跟随者相对于领导者的状态转化为自适应分布式观测器相对于领导者的状态;
其中,自适应分布式观测器如下:
其中χ0=x,D0=D,μ>0;在系统的误差描述之下,满足且满足适应分布式观测器包含一种估计矩阵D的机制,领导者的领近单元才知道此矩阵;
使用S的估计值Si来自适应的计算方程的解,得到下述观测器形式:
S24:基于强化学习的多智能体系统控制器设计;
考虑如下系统模型:
xk+1=f(xk)+g(xk)uk (4-1)
其中,是系统的状态,是系统的控制输入,上述系统模型也可用更加简明的xk+1=F(xk,uk)表示;
对于多智能体系统的每个状态xk定义如下控制策略:
uk=h(xk) (4-2)
上述映射形式也被称为反馈控制器,在反馈控制领域,反馈控制策略的设计有很多,包括Riccati方程最优解,自适应控制,h∞控制以及经典频域控制;
为得到系统的最佳控制策略,为系统设计如下成本函数:
其中,折扣因子0<γ≤1,uk=h(xk)是设计中的控制策略;
或以标准二次形式给出:
假定系统在V*处付出的成本最小,则其最优成本策略为:
当取最优控制策略时,系统所给定的最优控制值为:
在原系统中,考虑多智能体系统的领导者有如下模型:
xk+1=f(xk) (4-7)
通过给定系统的通信网络图,系统的局部一致性误差定义为:
多智能体系统的共识信息用上述局部领域的系统共识误差来表示,即当t→0时,ei→0,表示系统趋于一致;
设计一个额外的补偿器,不依赖于各个子系统,由可期望的输入仿射微分方程定义:
再结合相应图论知识,得到(4-10)的全局误差形式:
e=L'(x-x0) (4-10)
其中,且有满足bii=bi,当i≠j时,bij=0
联立(2-1)和(4-10)后对局部误差e求导后,相对于图G(x)得到局部领域一致性误差为:
其中,fe(t)=f(x(t))-f(x(0)),Li表示的是拉普拉斯矩阵的第i个列向量;结合(4-10)和(4-11),将局部领域一致性误差表示为:
其中,且满足:
同样的,回到刚开始所设计的连续时间下的系统模型:
给定连续时间多智能体系统一致性控制的代价函数:
则通过(4-9)和(4-13)所定义的仿射微分方程,利用Leibniz法则,得到相关跟踪Bellman方程:
其中,U(u)是关于控制输入u的一个正定被积函数:
则(4-15)有如下方程表示:
而后,定义下面哈密尔顿方程:
不妨令V*是系统最优控制成本,则最优成本函数定义如下:
在最优成本V*下,根据(4-18)中的Hamiltonian方程,得到如下HJB方程:
当稳定性条件时,得到如下最优控制输入:
得到下面策略迭代算法:
算法:基于策略迭代方法求解HJB方程
步骤211:策略评估:给定控制输入ui(x),通过下面贝尔曼方程求解Vi(X)
步骤212:(策略改进)通过下式更新控制策略:
步骤213:令返回步骤211,直到收敛到最小值;
在策略迭代算法中引入积分强化学习算法,在离散时间系统(4-1)上,对于任意积分区间T0,连续系统(4-13)中的值函数满足如下形式:
利用积分强化学习算法实现对贝尔曼方程的解进行跟踪,在采用积分强化学求解HJB方程在对系统动力学模型未知的情况下实现;
得到下面基于策略迭代的积分强化学习算法:
算法:基于策略迭代的离线积分强化学习算法求解HJB方程
步骤221:策略评估:给定控制输入ui(x),通过下面贝尔曼方程求解Vi(X)
步骤222:策略改进:通过下式更新控制策略:
步骤223:令返回步骤221,直到收敛到最小值;
S25:基于强化学习算法设计自适应分布式观测器实现多智能体的一致性分布式控制多智能体系统:
xi(k+1)=fi(x(k))+gi(x(k))ui(k)
yi(k)=cxi(k) (5-1)
其中,xi,ui,yi,分别表示系统的第i个智能体的状态,控制输入和输出;
领导者模型考虑有如u()下形式:
ν(k+1)=Eν(k)
所参考的领导者模型中,是领导者系统的状态,当智能体i满足(ν0,νi)∈ε,跟随者i与领导者之间存在通信连接时,表示一个已知的常数矩阵;Q满足Q(0)=0,是外部参考信号;
设有观测器:
其中,Ri(k)表示在k时刻智能体i相对于领导者的观测值,且满足R0(k)=ν(k),W0(k)=W,
根据上述系统描述,按照线性系统最优输出问题公式的推导,得到该系统的一个代价函数:
其中,i=1,2,...,N,ri是折扣因子,c=[1,0,0,...0]通过对式(5-4)的求解,得到每个follower的最优反馈输入:在解出函数最优反馈输入时,将(5-4)写成二次型函数形式,表示为系统的值函数:
得到如下贝尔曼方程:
根据上面贝尔曼方程,将非线性最优反馈中的HJB方程定义为:
当稳定性条件时,得到如下最优控制输入:
其中,
采用IRL的策略迭代来求解上述HJB方程;
得到下面基于策略迭代的在线IRL多智能体最优反馈控制算法:
算法:基于策略迭代的在线IRL算法求解HJB方程
步骤231:初始化:选择一个控制输入重复以下步骤知道系统收敛;
步骤232:策略改进:通过下式更新控制策略:
步骤233:令ui(k)=ui+1(k)返回步骤231,直到Vi(k)收敛到最小值;
在系统(5-1)和(5-2)模型基础上,考虑如下一阶多智能体系统:
其中,分别表示第i个智能体在时刻k处的状态和控制输入;τij≥0表示数据从智能体j到智能体i的通信时滞,τi≥0表示智能体i自身的输入时滞;考虑包含n个智能体的一阶离散多智能体系统,其网络拓补结构为静态有向加权图,且包含一个全局可达节点,如果满足则有:max{di(2τi+1)}<1
则系统能实现渐进一致,其中,
假设多智能体系统包含5个节点,其相对应的邻接矩阵如下:
根据以上设定,智能体的输入时滞应满足
假设:τ13=1s,τ21=0.75s,τ32=1.8s,τ42=2s,τ51=0.8s,输入时滞τ=0.5s,并随机产生智能体的初始状态为x(0)=(2.5,3,2,3.5,5),各智能体最终渐进趋于一致;将输入时滞换为3s,系统依然实现一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆大学,未经重庆大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110184288.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于图像识别核酸检测方法
- 下一篇:深度测量方法、芯片和电子设备