[发明专利]多智能体强化学习的多自由度模型的无人机协同追捕方法在审
申请号: | 202310296946.6 | 申请日: | 2023-03-24 |
公开(公告)号: | CN116225065A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 傅妍芳;雷凯麟;曹子建;杨博;孙泽龙;高领航;李秦洁 | 申请(专利权)人: | 西安工业大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 王鲜凯 |
地址: | 710021 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 强化 学习 自由度 模型 无人机 协同 追捕 方法 | ||
1.一种多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机,红方无人机通过协同合作尽快对逃逸目标实现围捕成功;步骤如下:
步骤1:对战双方智能体红方和蓝方,红方单元使用强化学习算法进行控制,蓝方单元基于传统作战规则,双方的智能体环境模型为:
以Pn(n=1,2,…,N)代表红方多个围捕无人机,E代表逃逸无人机,vE代表逃逸无人机的速度大小,代表追捕无人机的速度大小,dcap代表围捕半径,ψE代表逃逸无人机的偏航角,代表追捕无人机的偏航角,dt为追捕无人机和逃逸无人机之间的距离,di为追捕无人机和追捕无人机之间的距离;
所述红方算法智能体模型包括追捕无人机的运动学方程、智能体的状态空间、动作空间和奖赏函数;
所述蓝方规则智能体模型为逃逸无人机采用的逃逸对抗策略;
步骤2:采用多智能体深度确定性策略梯度算法作为红方智能体算法,其中MADDPG使用中心化训练、去中心化执行的方法;
构建价值Critic网络和策略Actor网络,其中:价值网络Critic部署在全局控制器上,策略网络Actor部署在每个智能体上,训练时,智能体agenti将观测值statei传输到全局价值网络,价值网络将TD误差传回智能体,供智能体训练策略网络,此时智能体之间不进行直接通讯,而是由训练好的策略网络做决策;
采用MADDPG算法对红方智能体进行训练并优化;
步骤3:将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合,生成最终的基于强化学习的多无人机协同围捕方法,过程为:
步骤3-1:以当前智能体为基准,计算当前智能体与其余智能体的差值,所述差值为:
经度差值
纬度差值
高度差值
距离差值
获得当前智能体的偏航角输入智能体的联合状态其中
步骤3-2:将智能体联合状态传入多智能体强化学习算法中,得到下一步的联合动作其中并在三维仿真作战环境中执行动作;
步骤3-3:执行动作结束后获得智能体下一步的动作和当前动作的奖励值Rn,将数据(Sn,An,Sn+1,Rn)存入经验缓冲池中,并抽取批大小的数据对算法进行训练;
在整个围捕过程中循环执行步骤3操作。
2.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述围捕成功满足以下条件:1)存在任意追捕无人机Pn(n=1,2,…,N)与逃逸目标E的距离小于围捕半径dcap;2)相邻追捕无人机之间的围捕角不大于π。
3.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法,其特征在于:所述围捕过程中满足以下约束:1)为避免地形和温度对无人机的影响,限制无人机的飞行高度在1000米和3000米之间;2)追捕无人机需要在限定区域内追捕到逃逸无人机,逃逸无人机超出限定区域判定任务失败;3)追捕无人机之间不能发生碰撞。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安工业大学,未经西安工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310296946.6/1.html,转载请声明来源钻瓜专利网。