[发明专利]基于多智能体强化学习的多无人机协同空战机动决策方法有效

专利信息
申请号: 202110318644.5 申请日: 2021-03-25
公开(公告)号: CN112947581B 公开(公告)日: 2022-07-05
发明(设计)人: 杨啟明;张建东;史国庆;吴勇;朱岩;张耀中 申请(专利权)人: 西北工业大学
主分类号: G05D1/10 分类号: G05D1/10
代理公司: 西安凯多思知识产权代理事务所(普通合伙) 61290 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 智能 强化 学习 无人机 协同 空战 机动 决策 方法
【权利要求书】:

1.一种基于多智能体强化学习的多无人机协同空战机动决策方法,其特征在于,包括以下步骤:

步骤1:建立多机空战环境模型,定义在多机协同空战过程中每架无人机进行机动决策的状态空间、行动空间和奖励值;

步骤1-1:在地面坐标系中,ox轴取正东方,oy轴取正北方,oz轴取铅垂方向;在地面坐标系中无人机的运动模型如式(1)所示:

在地面坐标系中,无人机的动力学模型如式(2)所示:

其中,(x,y,z)表示无人机在地面坐标系中的位置,v表示无人机速度,和分别表示无人机速度v在xyz三个坐标轴上的值;航迹角γ表示无人机速度v与水平面o-x-y之间的夹角;航向角ψ表示无人机速度v在o-x-y平面上的投影v′与oy轴之间的夹角,g表示重力加速度;[nx,nz,μ]是控制无人机进行机动的控制变量,nx是无人机速度方向的过载,代表无人机的推力与减速作用;nz表示无人机俯仰方向的过载,即法向过载;μ是围绕无人机速度矢量的滚转角;通过nx控制无人机的速度大小,通过nz和μ控制无人机速度矢量的方向,进而控制无人机进行机动动作;

步骤1-2:设定导弹仅具有尾后攻击能力;在导弹的截获区域内,用vU和vT分别表示无人机和目标的速度;D为距离矢量,表示无人机与目标间的位置关系;αU和αT分别表示无人机速度矢量与距离矢量D之间的夹角和目标速度矢量与距离矢量D之间的夹角;

设导弹的最远截获距离为Dm,视场角为则导弹的截获区域为一个圆锥区域Ω;无人机在空战中机动的目标就是让目标进入无人机的截获区域ΩU同时避免无人机进入目标的截获区域ΩT

根据导弹截获区域的定义,如果目标处于己方导弹的截获区域,则说明己方能够发射武器攻击目标,己方处于优势,定义无人机截获目标时的优势值ηU为:

其中,(xT,yT,zT)表示目标的位置坐标;Re为正数;

定义目标截获无人机获得的优势值ηT为:

其中,(xU,yU,zU)表示无人机的位置坐标;

则空战中,无人机基于截获机会获得的优势值ηA定义为:

ηA=ηUT (4)

定义基于双方角度参数与距离参数获得的优势值ηB为:

上式表明,当无人机对目标尾追时,优势值为ηB=1;在无人机被目标尾追时,优势值为ηB=-1;当无人机与目标的距离大于导弹最远截获距离时,优势值按指数函数衰减;

综合式式(4)、(5),得出无人机所处空战的态势评估函数η为:

η=ηAB (6)

步骤1-3:任意时刻空战态势的几何关系由同一坐标系内的无人机位置矢量、无人机速度矢量、目标位置矢量、目标速度矢量所包含的信息完全确定,因此空战态势的描述由以下5个方面组成:

1)无人机的速度信息,包括速度大小vU、航迹角γU和航向角ψU

2)目标的速度信息,包括速度大小vT、航迹角γT和航向角ψT

3)无人机与目标之间的相对位置关系,采用距离矢量D表征;距离矢量的模D=||D||,γD表示距离矢量D与水平面o-x-y的夹角,ψD表示距离矢量D在水平面o-x-y上的投影矢量与oy轴之间的夹角,无人机与目标的相对位置关系用D、γD和ψD表示;

4)无人机与目标之间的相对运动关系,包括无人机速度矢量与距离矢量D之间的夹角αU和目标速度矢量与距离矢量D之间的夹角αT

5)无人机的高度信息zU和目标的高度信息zT

基于上述1)到5)中的变量能够完备地表征任意时刻的1v1空战态势,因此1v1机动决策模型的状态空间是一个13维向量空间s:

s=[vUUU,vTTT,D,γDDUT,zU,zT] (7)

采用态势评估函数η作为空战机动决策奖励值R,通过态势评估函数来反映行动值对空战态势的作用,R=η;

步骤1-4:在多机空战中,设定无人机的数量为n,分别记为UAVi(i=1,2,…,n),目标的数量为m,分别记为Targetj(j=1,2,…,m),设定目标的数量不大于无人机的数量,即m≤n;

记任意两个UAVi和Targetj间的相对状态为UAVi与任意一个友机UAVk之间的相对状态记为则多机空战中任意一架UAVi的观测状态为:

Si=[∪sij|j=1,2...,m,∪sik|k=1,2,...,n(k≠i)] (8)

在多机空战过程中,每架无人机根据自己在空战环境中所处的态势做出自己的机动决策,根据式(2)所述的无人机动力学模型,无人机通过nx、nz和μ三个变量控制飞行,因此UAVi的行动空间为Ai=[nxi,nzii];

在多机协同空战中,按照式(4)和式(5)分别计算每个无人机与每个目标之间的态势评估值ηA和ηB,记UAVi与Targetj间的态势评估值为和除此之外,考虑UAVi与友机UAVk的相对状态对自身态势的影响,因此定义UAVi与友机UAVk的态势评估函数为:

其中Dik为无人机UAVi与友机UAVk之间的距离,Dsafe为两架无人机之间的最小安全距离,P为正数;

步骤2:建立多机协同目标分配方法,确定强化学习训练时的目标分配规则;

步骤2-1:在空战中,设n架无人机迎战m架目标,且n≥m;根据式(6),UAVi(i=1,2,…,n)相对Targetj(j=1,2,…,m)的态势评估值为

设目标分配矩阵为X=[xij],xij=1表示Targetj分配给UAVi,xij=0表示Targetj没有分配给UAVi;设每个无人机最多能同时对处于其攻击区内的L个目标发射导弹,即同时,作战时要避免有目标被遗漏而放弃攻击,即每个目标均应至少分配一个无人机去攻击,因此而所有无人机均要投入战斗,因此

以无人机对目标的态势优势最大化为目标,建立目标分配模型如下:

步骤2-2:在目标分配过程中首先分配处于攻击区内的目标,然后再分配处于攻击区以外的目标,因此目标分配方法分为如下两个部分:

步骤2-2-1:优先分配位于攻击区内的目标;

以和为元素构建两个n×m维的矩阵HA和HB,由式(3),如果Targetj处于UAVi的攻击区内,则否则因此,令令所有零元素的对应位置的xij=1;在分配过程中,如果处于无人机UAVi攻击区内的目标个数χ超过了无人机的最大攻击目标数量,即χL,则将UAVi在HB矩阵中对应的元素值排序,选择其中元素值最大的L个目标分配给UAVi

步骤2-2-2:分配位于攻击区以外的目标;

对于UAVi,如果已经分配了处于其攻击区内的目标,则不能再向其分配攻击区外的目标;而对于攻击区外的多个目标,无人机无法做出机动使得多个目标处于攻击区内,因而当目标均在攻击区之外时,只能为无人机分配一个目标;因此,在完成攻击区内目标分配后,剩余的目标分配工作转变为未分配的无人机分配1个目标的过程,采用匈牙利算法实现分配,具体如下:

首先根据当前的目标分配矩阵X=[xij]n×m,将HB中所有xij=1所在的第i行和第j列删除,获得矩阵基于采用匈牙利算法计算分配结果,由于n≥m,且L0,采用补边法完成匈牙利算法,实现目标分配,令相应xij=1;

完成以上两步后,即完成了所有目标的分配,得到目标分配矩阵X=[xij]n×m

步骤3:设计多机协同机动策略学习算法,确定强化学习训练逻辑;

多机协同机动策略学习算法包括策略协调机制和策略学习机制两部分:

步骤3-1:设计策略协调机制;

将空战对抗看作n个无人机与m个目标之间的竞争博弈,基于随机博弈的框架建立模型,一个随机博弈可以用一个元组来表示;S表示当前博弈的状态空间,所有Agent都能共享;UAVi的行动空间定义为Ai,Targeti的行动空间定义为Bi;T:S×An×Bm→S表示环境的确定性转移函数,表示UAVi的奖励值函数;在协同空战中各自编队内无人机的行动空间相同,即对于UAVi和Targetj分别有Ai=A和Bi=B;

定义无人机编队的全局奖励值为各个无人机奖励值的平均值,即:

其中,r(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,无人机编队获得的奖励值;

无人机编队的目标是学习一个策略使得奖励值的折扣累加值的期望最大化,其中0λ≤1是折扣因子;将随机博弈转变为一个马尔科夫决策问题:

其中Q*(·)表示状态s下执行行动a的状态-动作值函数,r(s,a)表示状态s下的执行行动a获得的奖励值,θ表示策略函数的网络参数,s′表示下一时刻的状态,aθ表示参数化的策略函数;

定义每架无人机的奖励值函数为:

其中,ri(s,a,b)表示在t时刻、环境状态为s、无人机编队采取行动a∈An、目标编队采取行动b∈Bm的情况下,UAVi获得的奖励值,其中表征UAVi相对为其分配的目标的态势优势值,是惩罚项,用以约束UAVi与友机之间的距离;

基于式(13),对于n架无人机个体,有n个如式(14)所示的贝尔曼方程,其中的策略函数aθ拥有相同的参数θ:

其中,表示无人机UAVi在状态s下的执行行动a的状态-动作值函数,ri(s,a)表示无人机UAVi在状态s下的执行行动a获得的奖励值;

步骤3-2:设计策略学习机制;

采用双向循环神经网络BRNN建立多无人机机动决策模型;

多无人机空战机动决策模型由Actor网络和Critic网络组成,Actor网络由各个无人机个体的Actor网络通过BRNN连接而成,Critic网络由各个无人机个体的Critic网络通过BRNN连接而成;多无人机空战机动决策模型中将单无人机决策模型中策略网络Actor和Q网络Critic中的隐含层设置成为BRNN的循环单元,再按照无人机的数量将BRNN展开;多无人机空战机动决策模型的输入为当前空战态势,输出各个无人机的行动值;

定义UAVi的目标函数为表示个体奖励值ri的累加的期望,表示在状态转移函数T下采用行动策略aθ得到的状态分布,状态分布在遍历的马尔可夫决策过程中为平稳分布,所以将n个无人机的目标函数记为J(θ):

根据多智能体确定性策略梯度定理,对于式(15)所述的n个无人机的目标函数J(θ),其策略网络参数θ的梯度为

采用参数化的Critic函数Qξ(s,a)来估计式(16)中的状态-行动值函数在训练Critic时,采用平方和loss函数,计算参数化critic函数Qξ(s,a)的梯度如式(17)所示,其中ξ是Q网络的参数:

基于式(16)和(17),采用随机梯度下降法优化Actor和Critic网络;在交互学习的过程中,通过试错获取的数据更新参数,完成协同空战策略的学习优化;

步骤3-3:根据策略协调机制和策略学习机制,确定多无人机协同空战机动决策模型的强化学习训练过程如下:

步骤3-3-1:首先进行初始化:确定空战双方的兵力和态势,设有n架无人机和m架目标进行空战对抗,n≥m;随机初始化Actor的在线网络参数θ和Critic的在线网络的参数ξ,然后将Actor和Critic在线网络的参数分别赋给其相应目标网络的参数,即θ′←θ,ξ′←ξ,θ′和ξ′分别是Actor和Critic目标网络的参数;初始化经验池R1,用以保存探交互得到的经验数据;初始化一个随机过程ε,用于实现行动值的探索;

步骤3-3-2:确定训练的初始状态,即确定空战开始的双方相对态势;设定无人机编队和目标编队中每一架无人机的初始位置信息和速度信息,即确定每架无人机的(x,y,z,v,γ,ψ)信息,根据状态空间的定义,计算得出空战初始状态s1;令t等于1;

步骤3-3-3:根据初始状态重复进行多幕训练,在每一单幕空战仿真中执行如下操作:

首先根据当前空战状态st,基于目标分配方法计算出目标分配矩阵Xt;然后每一个UAVi根据状态st和随机过程ε生成行动值并执行,与此同时,目标编队中的每一个Targeti执行行动执行完后状态转移至st+1,根据式(13)计算获得奖励值将一次转移过程变量作为一条经验数据存入经验池R1中;在学习时,从经验池R1中随机采样一批M条经验数据计算各个无人机的目标Q值,即对于M条数据中的每一条,都有:

根据式(17)计算Critic的梯度估计值,有:

根据式(16)计算Actor的梯度估计值,有:

根据得到的梯度估计值△ξ和△θ,采用优化器对Actor和Critic的在线网络参数进行更新;完成在线网络优化后,采用软更新方式更新目标网络参数,即

其中κ∈(0,1);

步骤3-3-4:在单幕仿真结束后,如果仿真达到设定的最大幕数,则停止本次强化学习训练,否则令t加1,重复执行步骤3-3-3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110318644.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top