[发明专利]一种基于多智能体强化学习的多机空战决策方法在审
申请号: | 202110964271.9 | 申请日: | 2021-08-22 |
公开(公告)号: | CN113791634A | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 刘小雄;尹逸;苏玉展;秦斌;韦大正 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 智能 强化 学习 空战 决策 方法 | ||
1.一种基于多智能体强化学习的多机空战决策方法,其特征在于,包括以下步骤:
步骤1:假定对战双方无人机为我方和敌方,我方无人机为红机,敌方无人机为蓝机;建立无人机的六自由度模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型;
步骤2:采用MAPPO算法作为多智能体强化学习算法,在具体空战环境的基础上设计相应的回报函数;
步骤3:将步骤1构建的无人机模型和步骤2中的多智能体强化学习算法进行结合,生成最终的基于多智能体强化学习的多机协同空战决策方法。
2.根据权利要求1所述的一种基于多智能体强化学习的多机空战决策方法,其特征在于,所述步骤1中,建立无人机的飞机模型、导弹模型、神经网络归一化模型、战场环境模型、态势判断和目标分配模型,具体步骤如下:
步骤1-1:建立无人机的飞机模型;
步骤1-1-1:输入无人机的状态Sr=[Vr,γr,φr,xr,yr,hr],依次为无人机的速度Vr,俯仰角γr,滚转角φr,三轴位置(xr,yr,hr);
步骤1-1-2:构建无人机六自由度模型和七个动作;动作选用无人机的切向过载、法向过载和滚转角来进行动作编码,即式(1)中的来表示仿真中每个时刻下采取的动作,经过编码,动作包括定常平飞、加速、减速、左转弯、右转弯、向上拉起、向下俯冲共七个动作;
其中,v表示无人机的速度,Nx表示无人机的切向过载,θ表示无人机的俯仰角,ψ表示无人机的偏航角,Nz表示无人机的法向过载,表示无人机的滚转角,t表示无人机状态的更新时间,g表示重力加速度;
步骤1-1-3:输入无人机需要执行的动作;
步骤1-1-4:通过龙格库塔解算出飞机执行完动作后的状态;
步骤1-1-5:更新飞机状态;
步骤1-2:构建导弹模型;
步骤1-2-1:决定导弹性能的参数为最大离轴发射角最大最小攻击距离DMmax和DMmin、最大和最小不可逃逸距离DMkmax和DMKmin、以及圆锥角
假设导弹攻击区是静态的,且只关注最大攻击距离、最大不可逃逸距离与圆锥角;攻击区记为Areaack,满足:
其中,dt表示红机到蓝机的距离,qt表示红机到蓝机的视线角;Pos(Target)表示蓝机的位置;
不可逃逸区记为Areadead,满足:
当蓝机进入红机的攻击区内,以一定概率被击毁;
步骤1-2-2:对攻击区进行划分;
当且DMkmindDMkmax时,蓝机处于攻击区的⑤区;
当且DMmindDMkmin时,蓝机处于攻击区的①区;
当且DMkmaxdDMmax时,蓝机处于攻击区的④区;
当且DMmindDMmax,蓝机处于攻击区的②区或者③区;具体在②区或③区通过红机和蓝机的相对位置进行判断,红机和蓝机的相对位置如式(4):
其中,Δx、Δy、Δz分别表示红机和蓝机在x轴方向、y轴方向和z轴方向的距离差,xb、yb、zb分别表示蓝机在x轴方向、y轴方向和z轴方向的位置,xr、yr、zr分别表示红机在x轴方向、y轴方向和z轴方向的位置;
如果则蓝机相对于红机位于右侧,即攻击区的③区,如果则蓝机相对于红机位于左侧,即攻击区的②区;
综上所述,攻击区的具体划分如下:
步骤1-2-3:当蓝机处于区域⑤时,蓝机在红机的不可逃逸区内,导弹命中概率最大;当蓝机处于其他区域时候,导弹命中概率为0到1的一个函数,命中概率的大小与距离、脱离角、偏离角以及飞行方向有关;当导弹命中概率小于0.3时,认为导弹无法命中,此时不能发射导弹;具体击毁概率如下:
其中,pa表示与蓝机机动相关联的击毁概率,pd表示与距离相关联的击毁概率,position(aircraft_aim)表示蓝机所处我方攻击区的区域;
步骤1-2-4:发射导弹的具体步骤如下:
步骤1-2-4-1:输入红机与蓝机的距离d、脱离角AA、偏离角ATA、位置和速度;
步骤1-2-4-2:构建导弹模型,设定导弹数量;
步骤1-2-4-3:根据距离d和脱离角ATA判断蓝机是否处于红机的攻击区;
步骤1-2-4-4:当蓝机处于红机攻击区,判断蓝机处于攻击区的哪一部分;
步骤1-2-4-5:判断蓝机相对于红机的速度方向;
步骤1-2-4-6:计算此时导弹的命中率;
步骤1-2-4-7:判断导弹是否命中;
步骤1-3:神经网络归一化模型;
步骤1-3-1:输入无人机的状态变量;
步骤1-3-2:归一化速度
步骤1-3-3:归一化角度
步骤1-3-4:归一化位置
步骤1-3-5:对归一化后的红机与蓝机的位置做差;
步骤1-3-6:输出数据;
步骤1-4:构建战场环境模型;
步骤1-5:态势判断和目标分配模型;
步骤1-5-1:输入红机和蓝机的状态,包括速度、俯仰角、偏航角和三轴位置;
步骤1-5-2:根据俯仰角和偏航角算出各自的角度优势φt为目标进入角,φf为目标方位角;
步骤1-5-3:根据三轴位置算出各自的距离优势
步骤1-5-4:根据速度和三轴位置中的高度算出各自的能量优势
步骤1-5-5:结合角度、速度和能量优势算出综合优势S=C1Sa+C2Sr+C3Eg,C1、C2和C3均为加权系数;
步骤1-5-6:根据综合优势对目标进行排序,生成目标分配矩阵;
步骤1-5-7:根据目标分配矩阵,输出对目标的分配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110964271.9/1.html,转载请声明来源钻瓜专利网。