[发明专利]基于改进Q函数的多智能体一致性强化学习方法及系统在审
申请号: | 202210217147.0 | 申请日: | 2022-03-07 |
公开(公告)号: | CN114545777A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 李金娜;聂豪 | 申请(专利权)人: | 辽宁石油化工大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 沈阳之华益专利事务所有限公司 21218 | 代理人: | 黄英华 |
地址: | 113000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 改进 函数 智能 一致性 强化 学习方法 系统 | ||
1.一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:包括以下步骤:
步骤1、建立线性离散时间异构多智能体系统的动态模型;
步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;
步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。
2.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤1为:
考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:
xi(k+1)=Aixi(k)+Biui(k) (1)
其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;
领导者的动力学模型(即异构多智能体系统中参考轨迹)为:
x0(k+1)=A0x0(k) (2)
其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。
3.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:
定义第i个跟随者的局部邻居同步误差为:
其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;
定义异构多智能体系统的全局同步误差为:
ξ(k)=x(k)-
其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,T表示向量转置,
全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:
其中,L表示系统拓扑图的拉普拉斯矩阵,In表示一个n维的单位矩阵,g=diag{gi}∈RN×N表示一个固定增益的对角矩阵,表示克罗内克积。
对于其中任意一个跟随者i,定义其性能指标为:
其中,
其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学,未经辽宁石油化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210217147.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置
- 下一篇:一种吊舱推进电机引线结构及方法