[发明专利]一种多智能体输出编队跟踪控制方法及系统在审
申请号: | 202110800042.3 | 申请日: | 2021-07-15 |
公开(公告)号: | CN113485344A | 公开(公告)日: | 2021-10-08 |
发明(设计)人: | 董希旺;石宇;于江龙;化永朝;李清东;任章;吕金虎 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/02 | 分类号: | G05D1/02;G05D1/10 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 杜阳阳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 智能 输出 编队 跟踪 控制 方法 系统 | ||
1.一种多智能体输出编队跟踪控制方法,其特征在于,包括:
建立多智能体系统的通信网络拓扑模型;
建立领导者智能体模型;
设计跟随者智能体的期望编队构型;
根据所述通信网络拓扑模型、所述领导者智能体模型和所述期望编队构型设计分布式编队轨迹生成器;
利用所述分布式编队轨迹生成器生成所述跟随者智能体的参考轨迹;
利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
2.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述建立多智能体系统的通信网络拓扑模型,具体包括:
建立跟随者智能体与跟随者智能体之间的第一通信拓扑连通关系;
建立跟随者智能体与领导者智能体之间的第二通信拓扑连通关系;
根据所述第一通信拓扑连通关系和所述第二通信拓扑连通关系建立所述多智能体系统的通信网络拓扑模型。
3.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述领导者智能体模型表示为:
y0(t)=Rξ0(t)
其中,表示领导者智能体状态对时间的导数;ξ0(t)表示领导者智能体状态;S表示领导者智能体系数矩阵;R表示领导者智能体输出矩阵;y0(t)表示领导者智能体输出状态。
4.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,跟随者智能体的期望编队构型的具体表达式为:
其中,表示第i个跟随者智能体的期望编队构型;表示第i个跟随者智能体相对领导者智能体的状态偏移量;R表示领导者智能体输出矩阵。
5.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述分布式编队轨迹生成器的具体表达式为:
其中,表示第i个分布式编队轨迹生成器状态的时间导数;S表示领导者智能体系数矩阵;ξi(t)表示第i个分布式编队轨迹生成器的状态;F表示常数增益矩阵;表示第i个跟随者智能体的参考轨迹;j表示第j个跟随者智能体;Ni表示第i个跟随者智能体的邻居集合;表示第i个跟随者智能体队形向量;gi表示领导者智能体到第i个跟随者智能体的通信权值;wij表示第j个智能体到第i个智能体之间对应的通信权重;ξ0(t)表示领导者智能体状态;vi(t)表示轨迹生成补偿项;R表示领导者智能体输出矩阵。
6.根据权利要求1所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述利用编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹,具体包括:
利用强化学习算法设计最优反馈控制器;
根据所述最优反馈控制器的最优反馈控制增益,设计输出编队跟踪控制前馈补偿控制器;
根据所述最优反馈控制器和所述输出编队跟踪控制前馈补偿控制器获得所述编队轨迹跟踪控制器;
利用所述编队轨迹跟踪控制器使所述跟随者智能体的输出轨迹跟踪所述参考轨迹。
7.根据权利要求6所述的一种多智能体输出编队跟踪控制方法,其特征在于,所述利用强化学习算法设计最优反馈控制器,具体包括:
设计强化学习算法的指标函数;
根据分布式编队轨迹生成器的生成状态和所述跟随者智能体的状态对所述指标函数进行参数化拟合,得到拟合后的指标函数;
初始化所述拟合后的指标函数、迭代控制器和迭代次数;
预定时间间隔采集加入数据激励控制器后的所述多智能体系统内的所有智能体状态和跟随者智能模型的控制输入量,得到采集数据;
当所述采集数据中未使用数据的个数达到预定值时,对所述迭代控制器进行迭代更新;
当当前迭代控制器与上一轮迭代更新得到的迭代控制器之间的差值小于误差允许阈值时,则迭代更新结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110800042.3/1.html,转载请声明来源钻瓜专利网。