[发明专利]一种基于多智能体强化学习的多机空战决策方法在审

申请号：	202110964271.9	申请日：	2021-08-22
公开（公告）号：	CN113791634A	公开（公告）日：	2021-12-14
发明（设计）人：	刘小雄;尹逸;苏玉展;秦斌;韦大正	申请（专利权）人：	西北工业大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	西北工业大学专利中心 61204	代理人：	金凤
地址：	710072 ***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于智能强化学习空战决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多智能体强化学习的多机空战决策方法，其特征在于，包括以下步骤：

步骤1：假定对战双方无人机为我方和敌方，我方无人机为红机，敌方无人机为蓝机；建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型；

步骤2：采用MAPPO算法作为多智能体强化学习算法，在具体空战环境的基础上设计相应的回报函数；

步骤3：将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合，生成最终的基于多智能体强化学习的多机协同空战决策方法。

2.根据权利要求1所述的一种基于多智能体强化学习的多机空战决策方法，其特征在于，所述步骤1中，建立无人机的飞机模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型，具体步骤如下：

步骤1-1：建立无人机的飞机模型；

步骤1-1-1：输入无人机的状态S_r＝[V_r,γ_r,φ_r,x_r,y_r,h_r]，依次为无人机的速度V_r，俯仰角γ_r，滚转角φ_r，三轴位置(x_r,y_r,h_r)；

步骤1-1-2：构建无人机六自由度模型和七个动作；动作选用无人机的切向过载、法向过载和滚转角来进行动作编码，即式(1)中的来表示仿真中每个时刻下采取的动作，经过编码，动作包括定常平飞、加速、减速、左转弯、右转弯、向上拉起、向下俯冲共七个动作；

其中，v表示无人机的速度，N_x表示无人机的切向过载，θ表示无人机的俯仰角，ψ表示无人机的偏航角，N_z表示无人机的法向过载，表示无人机的滚转角，t表示无人机状态的更新时间，g表示重力加速度；

步骤1-1-3：输入无人机需要执行的动作；

步骤1-1-4：通过龙格库塔解算出飞机执行完动作后的状态；

步骤1-1-5：更新飞机状态；

步骤1-2：构建导弹模型；

步骤1-2-1：决定导弹性能的参数为最大离轴发射角最大最小攻击距离D_Mmax和D_Mmin、最大和最小不可逃逸距离D_Mkmax和D_MKmin、以及圆锥角

假设导弹攻击区是静态的，且只关注最大攻击距离、最大不可逃逸距离与圆锥角；攻击区记为Area_ack，满足：

其中，d_t表示红机到蓝机的距离，q_t表示红机到蓝机的视线角；Pos(Target)表示蓝机的位置；

不可逃逸区记为Area_dead，满足：

当蓝机进入红机的攻击区内，以一定概率被击毁；

步骤1-2-2：对攻击区进行划分；

当且D_MkmindD_Mkmax时，蓝机处于攻击区的⑤区；

当且D_MmindD_Mkmin时，蓝机处于攻击区的①区；

当且D_MkmaxdD_Mmax时，蓝机处于攻击区的④区；

当且D_MmindD_Mmax，蓝机处于攻击区的②区或者③区；具体在②区或③区通过红机和蓝机的相对位置进行判断，红机和蓝机的相对位置如式(4)：

其中，Δx、Δy、Δz分别表示红机和蓝机在x轴方向、y轴方向和z轴方向的距离差，x_b、y_b、z_b分别表示蓝机在x轴方向、y轴方向和z轴方向的位置，x_r、y_r、z_r分别表示红机在x轴方向、y轴方向和z轴方向的位置；

如果则蓝机相对于红机位于右侧，即攻击区的③区，如果则蓝机相对于红机位于左侧，即攻击区的②区；

综上所述，攻击区的具体划分如下：

步骤1-2-3：当蓝机处于区域⑤时，蓝机在红机的不可逃逸区内，导弹命中概率最大；当蓝机处于其他区域时候，导弹命中概率为0到1的一个函数，命中概率的大小与距离、脱离角、偏离角以及飞行方向有关；当导弹命中概率小于0.3时，认为导弹无法命中，此时不能发射导弹；具体击毁概率如下：

其中，p_a表示与蓝机机动相关联的击毁概率，p_d表示与距离相关联的击毁概率，position(aircraft_aim)表示蓝机所处我方攻击区的区域；

步骤1-2-4：发射导弹的具体步骤如下：

步骤1-2-4-1：输入红机与蓝机的距离d、脱离角AA、偏离角ATA、位置和速度；

步骤1-2-4-2：构建导弹模型，设定导弹数量；

步骤1-2-4-3：根据距离d和脱离角ATA判断蓝机是否处于红机的攻击区；

步骤1-2-4-4：当蓝机处于红机攻击区，判断蓝机处于攻击区的哪一部分；

步骤1-2-4-5：判断蓝机相对于红机的速度方向；

步骤1-2-4-6：计算此时导弹的命中率；

步骤1-2-4-7：判断导弹是否命中；

步骤1-3：神经网络归一化模型；

步骤1-3-1：输入无人机的状态变量；

步骤1-3-2：归一化速度

步骤1-3-3：归一化角度

步骤1-3-4：归一化位置

步骤1-3-5：对归一化后的红机与蓝机的位置做差；

步骤1-3-6：输出数据；

步骤1-4：构建战场环境模型；

步骤1-5：态势判断和目标分配模型；

步骤1-5-1：输入红机和蓝机的状态，包括速度、俯仰角、偏航角和三轴位置；

步骤1-5-2：根据俯仰角和偏航角算出各自的角度优势φ_t为目标进入角，φ_f为目标方位角；

步骤1-5-3：根据三轴位置算出各自的距离优势

步骤1-5-4：根据速度和三轴位置中的高度算出各自的能量优势

步骤1-5-5：结合角度、速度和能量优势算出综合优势S＝C₁S_a+C₂S_r+C₃E_g，C₁、C₂和C₃均为加权系数；

步骤1-5-6：根据综合优势对目标进行排序，生成目标分配矩阵；

步骤1-5-7：根据目标分配矩阵，输出对目标的分配。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西北工业大学，未经西北工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110964271.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多智能体强化学习的多机空战决策方法在审

专利文献下载