[发明专利]基于改进Q函数的多智能体一致性强化学习方法及系统在审

专利信息
申请号: 202210217147.0 申请日: 2022-03-07
公开(公告)号: CN114545777A 公开(公告)日: 2022-05-27
发明(设计)人: 李金娜;聂豪 申请(专利权)人: 辽宁石油化工大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 沈阳之华益专利事务所有限公司 21218 代理人: 黄英华
地址: 113000 辽*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 改进 函数 智能 一致性 强化 学习方法 系统
【权利要求书】:

1.一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:包括以下步骤:

步骤1、建立线性离散时间异构多智能体系统的动态模型;

步骤2、设定异构多智能体系统的领导跟随一致性误差方程,并引入可靠性因子ρ折中非策略Q-学习和策略Q-学习两种学习模式,设计基于改进Q函数的分布式控制协议;

步骤3、采用Critic神经网络通过系统动态模型产生的数据自学习最优控制协议,根据最优控制协议对异构多智能体系统进行一致性控制。

2.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:所述步骤1为:

考虑具有N个跟随者和一个领导者的线性离散时间异构多智能体系统,跟随者i的动力学模型为:

xi(k+1)=Aixi(k)+Biui(k) (1)

其中,xi(k)和ui(k)分别表示第i个跟随者k(k=1,2,...)时刻的状态和控制输入,Ai和Bi分别表示第i个跟随者的系统矩阵和控制矩阵;

领导者的动力学模型(即异构多智能体系统中参考轨迹)为:

x0(k+1)=A0x0(k) (2)

其中,x0(k)代表领导者k(k=1,2,...)时刻的状态,A0表示领导者的系统矩阵。

3.根据权利要求1所述的一种基于改进Q函数的多智能体一致性强化学习方法,其特征在于:步骤2所述设定异构多智能体系统的领导跟随一致性误差方程为:

定义第i个跟随者的局部邻居同步误差为:

其中,δi(k)表示第i个跟随者的局部邻居同步误差,aib表示跟随者i与跟随者b之间的权重,xb(k)表示第b个跟随者k(k=1,2,...)时刻的状态,gi(gi≥0)表示第i个跟随者与领导者的固定增益,Ni表示系统拓扑图中跟随者i的邻居节点个数,表示系统拓扑图中跟随者b到跟随者i的所有拓扑关系的总和;

定义异构多智能体系统的全局同步误差为:

ξ(k)=x(k)-x0(k) (4)

其中,ξ(k)表示异构多智能体系统的全局同步误差,x(k)表示k时刻N个跟随者的全局状态,T表示向量转置,x0(k)表示k时刻每一个跟随者对应的领导者的全局状态,

全局同步误差ξ(k)与全局邻居同步误差δ(k)之间存在如下关系为:

其中,L表示系统拓扑图的拉普拉斯矩阵,In表示一个n维的单位矩阵,g=diag{gi}∈RN×N表示一个固定增益的对角矩阵,表示克罗内克积。

对于其中任意一个跟随者i,定义其性能指标为:

其中,

其中,Ji表示跟随者i的性能指标,uik表示第i个跟随者k时刻的控制协议,u-ik={ub|b∈Ni}表示第i个跟随者的邻居k时刻的控制协议,ub表示第b个跟随者的控制协议,表示跟随者i对应的所有时刻总和,Ui表示第i个跟随者的效应函数,δik表示第i个跟随者k时刻的局部邻居同步误差,Qii≥0,Rii>0,Rib>0表示具有合适维数的对称矩阵,ubk表示第b个跟随者k时刻的控制协议。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学,未经辽宁石油化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210217147.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top