[发明专利]基于评判-执行架构的多无人机协同对抗决策方法有效

申请号：	202010340657.8	申请日：	2020-04-26
公开（公告）号：	CN112180967B	公开（公告）日：	2022-08-19
发明（设计）人：	林德福;郑多;陈灿;宋韬;李斌;莫雳	申请（专利权）人：	北京理工大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	北京康思博达知识产权代理事务所(普通合伙) 11426	代理人：	范国锋;刘冬梅
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于评判执行架构无人机协同对抗决策方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于评判-执行架构的多无人机协同对抗决策方法，其特征在于，所述方法包括以下步骤：

步骤1，在执行任务前，对多个无人机进行训练，得到各无人机的行为策略模型；

步骤2，执行任务时，各无人机根据观测状态获得行为决策；

步骤1包括以下子步骤：

步骤1-1，无人机根据当前观测状态输出动作行为至仿真环境；

步骤1-2，采集多无人机与仿真环境交互的数据，并存储至经验池中；

步骤1-3，从经验池中随机采样，对无人机进行训练；

步骤1-4，获得无人机的行为策略模型；

步骤1-3包括以下子步骤：

步骤1-3-1，构建评判网络和执行网络；

步骤1-3-2，对无人机的评判网络和执行网络进行更新；

步骤1-3-2中，所述网络的更新包括以下步骤：

步骤i，对多无人机群体的当前观测状态和继任观测状态进行评判；

步骤ii，更新每个无人机的评判神经网络和目标神经网络；

步骤iii，更新每个无人机的策略神经网络和目标策略神经网络；

采用评判神经网络评判多无人机群体的当前状态，

采用目标神经网络评判多无人机群体的继任观测状态；

采用下式获得评判网络中评判神经网络的损失函数：

其中，

L(ω)为评判神经网络的损失函数，ω为无人机的评判神经网络的权重参数，Q_i(x^t,a^t|ω)为第i架无人机的状态动作值函数，即评判神经网络的输出，x^t为t时刻所有无人机的联合观测状态；a^t为t时刻各个无人机的动作集合；r_i^t为第i架无人机t时刻的奖励，为第i架无人机的目标状态动作值函数，即目标神经网络的输出；γ为折扣因子代表某一时刻无人机奖励的权重，为第i架无人机t+1时刻的动作，为目标策略神经网络，为第i架无人机t+1时刻的观测状态；

采用反向传播算法获得损失函数的梯度，并对损失函数进行优化，以更新评判神经网络的权重参数；

所述目标神经网络的权重参数更新按照下式进行：

ω'_new＝τω_new+(1-τ)ω'

其中，ω'为目标神经网络更新前的参数，ω'_new为目标神经网络更新后的参数，ω_new为评判神经网络更新后的参数，τ为滞后参数，取值为0.01；

步骤iii中，策略神经网络的策略梯度通过下式获得：

其中，θ＝[θ₁,…,θ_n]表示n个无人机执行策略的参数，μ＝[μ₁,…,μ_n]表示n个无人机的联合策略，

u为对应的角速度；表示第i个无人机在t时刻的观测状态，表示所有无人机在t时刻的联合观测状态，a^t为t时刻各个无人机的动作集合，p^π是状态的概率分布函数，是在无人机群体采用联合策略μ的前提下，第i个无人机的状态动作值函数，即评判神经网络的输出；J(θ_i)为策略神经网络优化用的目标函数，它表示第i个无人机的累积期望奖励：

其中，R_i为第i架无人机的累积回报，γ为折扣因子，x是无人机群体的联合观测状态，a是各个无人机执行的动作集合；其中累积回报中折扣因子γ＝0.95，单回合最大步长为50，单次采样样本量为1024组；

步骤1-2中，所述多无人机与仿真环境交互的数据为元素组(x^t,x^t+1,a₁,…,a_n,r₁,…r_n)，其中，x^t为所有无人机t时刻的联合观测状态；x^t+1为所有无人机t+1时刻的联合观测状态；a₁…a_n为n架无人机t时刻执行的动作；r₁…r_n为n架无人机t时刻执行动作后获得的奖励；n为无人机的个数；