[发明专利]多智能体强化学习的多自由度模型的无人机协同追捕方法在审

申请号：	202310296946.6	申请日：	2023-03-24
公开（公告）号：	CN116225065A	公开（公告）日：	2023-06-06
发明（设计）人：	傅妍芳;雷凯麟;曹子建;杨博;孙泽龙;高领航;李秦洁	申请（专利权）人：	西安工业大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	西安凯多思知识产权代理事务所(普通合伙) 61290	代理人：	王鲜凯
地址：	710021 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能强化学习自由度模型无人机协同追捕方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：作战区域中存在红方多艘同构追捕无人机和蓝方单架逃逸无人机，红方无人机通过协同合作尽快对逃逸目标实现围捕成功；步骤如下：

步骤1：对战双方智能体红方和蓝方，红方单元使用强化学习算法进行控制，蓝方单元基于传统作战规则，双方的智能体环境模型为：

以P_n(n＝1,2,…,N)代表红方多个围捕无人机，E代表逃逸无人机，v_E代表逃逸无人机的速度大小，代表追捕无人机的速度大小，d_cap代表围捕半径，ψ_E代表逃逸无人机的偏航角，代表追捕无人机的偏航角，d_t为追捕无人机和逃逸无人机之间的距离，d_i为追捕无人机和追捕无人机之间的距离；

所述红方算法智能体模型包括追捕无人机的运动学方程、智能体的状态空间、动作空间和奖赏函数；

所述蓝方规则智能体模型为逃逸无人机采用的逃逸对抗策略；

步骤2：采用多智能体深度确定性策略梯度算法作为红方智能体算法，其中MADDPG使用中心化训练、去中心化执行的方法；

构建价值Critic网络和策略Actor网络，其中：价值网络Critic部署在全局控制器上，策略网络Actor部署在每个智能体上，训练时，智能体agent_i将观测值state_i传输到全局价值网络，价值网络将TD误差传回智能体，供智能体训练策略网络，此时智能体之间不进行直接通讯，而是由训练好的策略网络做决策；

采用MADDPG算法对红方智能体进行训练并优化；

步骤3：将步骤1构建的智能体环境模型和步骤2中的多智能体强化学习算法相结合，生成最终的基于强化学习的多无人机协同围捕方法，过程为：

步骤3-1：以当前智能体为基准，计算当前智能体与其余智能体的差值，所述差值为：

经度差值

纬度差值

高度差值

距离差值

获得当前智能体的偏航角输入智能体的联合状态其中

步骤3-2：将智能体联合状态传入多智能体强化学习算法中，得到下一步的联合动作其中并在三维仿真作战环境中执行动作；

步骤3-3：执行动作结束后获得智能体下一步的动作和当前动作的奖励值R_n，将数据(S_n，A_n，S_n+1，R_n)存入经验缓冲池中，并抽取批大小的数据对算法进行训练；

在整个围捕过程中循环执行步骤3操作。

2.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述围捕成功满足以下条件：1)存在任意追捕无人机P_n(n＝1,2,…,N)与逃逸目标E的距离小于围捕半径d_cap；2)相邻追捕无人机之间的围捕角不大于π。

3.根据权利要求1所述多智能体强化学习的多自由度模型的无人机协同追捕方法，其特征在于：所述围捕过程中满足以下约束：1)为避免地形和温度对无人机的影响，限制无人机的飞行高度在1000米和3000米之间；2)追捕无人机需要在限定区域内追捕到逃逸无人机，逃逸无人机超出限定区域判定任务失败；3)追捕无人机之间不能发生碰撞。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安工业大学，未经西安工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202310296946.6/1.html，转载请声明来源钻瓜专利网。

上一篇：数据清洗方法、装置、存储介质及电子设备
下一篇：机械件加工车间生产与物流集成的优化调度方法与系统

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]多智能体强化学习的多自由度模型的无人机协同追捕方法在审

专利文献下载