[发明专利]一种多智能体一致性强化学习控制方法有效
申请号: | 202111333034.9 | 申请日: | 2021-11-11 |
公开(公告)号: | CN114200830B | 公开(公告)日: | 2023-09-22 |
发明(设计)人: | 李金娜;袁林 | 申请(专利权)人: | 辽宁石油化工大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 沈阳天赢专利代理有限公司 21251 | 代理人: | 李荣新 |
地址: | 113001 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 一致性 强化 学习 控制 方法 | ||
本发明涉及一种多智能体一致性强化学习控制方法,包含如下步骤:由所述多智能体系统中领导者动力学模型,定义智能体i的第j个分量的局部邻居误差;通过式(3)得到智能体i的局部邻居误差系统方程;定义虚拟控制器;根据实际多智能体之间通信存在的时滞,构建公式;N个跟随者智能体根据自己的状态信息及其邻居智能体的信息来分别构建局部邻居误差动力学方程向量;设计分布式积分滑模控制器;设计分布式最优控制器。本发明将具有强鲁棒性的滑模控制和强化学习算法相结合,设计的分布式复合控制律不仅能使整个高阶多智能体系统抵抗外界扰动使系统具有很强的鲁棒性而且使整个多智能体系统具有自学习能力从而实现最优一致性。
技术领域
本发明涉及一种多智能体一致性控制方法,特别是涉及一种多智能体一致性强化学习控制方法。
背景技术
由于分布式计算、传感器技术,以及通信技术的迅速发展,实际系统的每个单元都具有协同计算和处理复杂任务的能力。因此,多智能体系统应运而生。多智能体系统一致性问题是多智能系统研究中基本并且相当重要的问题,其主要任务是利用智能体之间的状态信息设计一致性控制协议,从而随着时间的推移使得所有智能体的状态相同。
在实际应用中,多智能系统的动力学模型不能完全准确的确定,系统多为非线性系统,并且含有干扰,智能体之间相互耦合,再加上智能体之间通信时滞的存在,使得多智能体系统一致性控制更加困难。滑模控制是一种鲁棒控制方法,其根本特点是可以针对系统的不确定性和受到外部扰动时系统具有良好的控制性能和强鲁棒性。强化学习是机器学习的子领域,其参照哺乳动物的学习机制,即智能体不断地通过与环境的交互改变其行为以实现累积奖励最大化。
现有多智能体一致性控制方法大多只考虑系统为一阶或者二阶的情形,然而实际有些场景要求多智能体系统具有很强的机动性,即要求多智能体系统实现高阶一致性。部分多智能体一致性控制方法未考虑智能体之间由于通信带宽有限而存在的时滞、外部干扰对多智能体系统一致性的影响,或者仅考虑的多智能体系统为线性多智能体,然而实际中绝大部分多智能体系统为非线性系统。
发明内容
针对现有的多智能体系统一致性控制方法存在的问题以及为了实现多智能体系统达到最优一致性,本发明的目的是提供一种多智能体一致性强化学习控制方法,该方法设计的分布式滑膜积分控制器不仅能抵抗外界扰动使系统具有强鲁棒性,而且使系统具有自学习能力从而实现最优一致性。
为了解决现有技术存在的问题,本发明采用以下技术方案:
一种基于滑模控制的多智能体一致性强化学习控制方法,所述多智能体系统中跟随者的模型为:
其中,代表智能体i的第j阶的状态,f(xi)为连续非线性函数,ui(t)为控制输入,di(t)为未知干扰;
所述多智能体系统中领导者动力学方程为:
其中,代表领导者的第j阶的状态,f(x0)为连续非线性函数,d0(t)为未知干扰;
N个跟随者智能体能够获取自身的各阶状态信息以及与其相连接的延迟时间τ的邻居智能体j的状态信息;
包括以下步骤:
步骤1:由所述多智能体系统模型,定义智能体i的第j个分量的局部邻居误差:
其中,aij为智能体i与智能体j之间的权重,bi为智能体i与领导者的权重,∑为拓扑图中智能体j到智能体i的所有拓扑关系的总和;
步骤2:通过式(3)得到智能体i的局部邻居误差系统方程:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁石油化工大学,未经辽宁石油化工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111333034.9/2.html,转载请声明来源钻瓜专利网。