[发明专利]一种基于强化学习的模型未知多智能体一致性控制方法有效

申请号：	202110184288.2	申请日：	2021-02-08
公开（公告）号：	CN112947084B	公开（公告）日：	2022-09-23
发明（设计）人：	陈刚;林卓龙	申请（专利权）人：	重庆大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京同恒源知识产权代理有限公司 11275	代理人：	赵荣之
地址：	400044 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习模型未知智能一致性控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于强化学习的模型未知多智能体一致性控制方法，属于智能化领域。本发明首先在设计自适应分布式观测器时采用的方案有三个步骤组成。第一，设计了一个自适应分布式观测器来估计系统矩阵和leader系统的状态。第二，在设计自适应分布式观测器后提出了一种在线计算观测器方程解的方法。第三，为排除极少数极端情况，在假设每个follower不知道leader系统矩阵的情况下，综合了自适应状态反馈和自适应测量输出反馈控制来解决系统分布式一致性输出调节问题。本发明根据所估计的状态，采用基于强化学习的方法设计控制器，通过迭代的方法得到最优解，实现多智能体系统的最优控制。

技术领域

本发明属于智能化领域，涉及一种基于强化学习的模型未知多智能体一致性控制方法。

背景技术

多智能体系统的一致性控制问题的研究可以追溯到上世纪80年代，相关多智能体技术的研究最早是从研究移动机器人开始的。在过去的近十五年里，多智能体系统一致性控制研究领域发展迅速，许多新的系统被提出的领域已经从军事作战延伸到了移动传感器网络，商业公路，航空运输以及抢险救灾等各个方面。但是随着控制质量的约束，分布式最优一致性问题都一直是现今控制领域的一大挑战。多智能体系统的分布式一致性不仅需要满足各智能体在行为上达到一致，而且需要做到整个系统的性能指标最优化。从更加严格的意义上来说，多智能体系统的分布式一致性控制是要以尽可能低的成本达到共识。而现今主流的研究多智能体控制的优秀学者针对多智能体系统的一致性控制问题给出了各种想法：如线性二次调节技术、自适应学习方法、模型预测控制技术、模糊自适应动态规划。

而近几十年来，强化学习(RL)作为一种可以在不了解或辨识系统动力学的情况下设计非基于模型的控制协议，从而得到了很广泛的关注和很广阔的应用前景。强化学习是受到生物系统的启发，通过对累计奖励进行优化，与给定的未知环境互动来学习最佳策略以最大化其长期性能，从而找到最优的控制策略。Rl算法是建立在某种成功的控制策略应该被记住的基础之上，而后通过强化这种信号，使他们更有可能在第二次使用。从强化学习研究的一开始，RL方法就在智能体研究领域得到了十分广泛的关注。当今主流的相关强化学习方面的研究，通常是在一个actor-critic结构上实现的，评论家根据测量的数据评估当前策略的性能，而而表演者则使用评论家评估得到的策略找到一个改进的策略。与经典的动态规划方法相比，强化学习方法给出了一种能够避免维数爆炸的可行方法。而另一方面，与传统的自适应控制器相比，强化学习方法只需要考虑跟踪误差的动力学，可以最大限度的减少给系统带来误差的瞬态响应，同时保证整个系统的稳定性。强化学习(RL)算法的求解最优控制问题的主要优点是，它可以在不了解系统动力学的情况下从系统得到足够的数据信息，而后基于策略迭代技术，在策略评估和策略改进两个步骤之间进行迭代改进。

在对多智能体一致性控制的研究中，更多考虑的是系统部分未知，而跟随者是可以随时观测领导者的状态，通过构造领导者与跟随者之间的通信网络以及跟随者之间的通信网络，使整个系统达成行为上的一致。在大部分情况下，系统的状态是无法用传感器直接测量的，但是系统的输入输出却是可以通过各种方法进行测得。现今流行的方法是通过构造一个全维观测器对系统的状态进行一个估计；如考虑如下一个简单的线性系统：

同时构造一个与该系统相同的模拟线性系统：

其中ω和γ是模拟系统的输入和输出,也是原系统的估计值,设计模拟系统与原系统的误差值为:e＝ω-x,为使状态估计误差e趋于0,可以转为分析可测量的输出估计误差γ-y,根据反馈控制的一般原理,只需要将输出的估计误差γ-y反馈至模拟系统的状态处,而后设计控制器使得输出估计误差趋近于0,即此时状态估计误差也趋近于0。引入状态观测器输出反馈矩阵H，得到如下形式：

将原系统的输出方程和全维状态观测器的输出方程带入全维状态观测器的状态方程中可得:

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆大学，未经重庆大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110184288.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的模型未知多智能体一致性控制方法有效

专利文献下载