[发明专利]基于评判-执行架构的多无人机协同对抗决策方法有效
申请号: | 202010340657.8 | 申请日: | 2020-04-26 |
公开(公告)号: | CN112180967B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 林德福;郑多;陈灿;宋韬;李斌;莫雳 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G05D1/10 | 分类号: | G05D1/10 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 范国锋;刘冬梅 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 评判 执行 架构 无人机 协同 对抗 决策 方法 | ||
1.一种基于评判-执行架构的多无人机协同对抗决策方法,其特征在于,所述方法包括以下步骤:
步骤1,在执行任务前,对多个无人机进行训练,得到各无人机的行为策略模型;
步骤2,执行任务时,各无人机根据观测状态获得行为决策;
步骤1包括以下子步骤:
步骤1-1,无人机根据当前观测状态输出动作行为至仿真环境;
步骤1-2,采集多无人机与仿真环境交互的数据,并存储至经验池中;
步骤1-3,从经验池中随机采样,对无人机进行训练;
步骤1-4,获得无人机的行为策略模型;
步骤1-3包括以下子步骤:
步骤1-3-1,构建评判网络和执行网络;
步骤1-3-2,对无人机的评判网络和执行网络进行更新;
步骤1-3-2中,所述网络的更新包括以下步骤:
步骤i,对多无人机群体的当前观测状态和继任观测状态进行评判;
步骤ii,更新每个无人机的评判神经网络和目标神经网络;
步骤iii,更新每个无人机的策略神经网络和目标策略神经网络;
采用评判神经网络评判多无人机群体的当前状态,
采用目标神经网络评判多无人机群体的继任观测状态;
采用下式获得评判网络中评判神经网络的损失函数:
其中,
L(ω)为评判神经网络的损失函数,ω为无人机的评判神经网络的权重参数,Qi(xt,at|ω)为第i架无人机的状态动作值函数,即评判神经网络的输出,xt为t时刻所有无人机的联合观测状态;at为t时刻各个无人机的动作集合;rit为第i架无人机t时刻的奖励,为第i架无人机的目标状态动作值函数,即目标神经网络的输出;γ为折扣因子代表某一时刻无人机奖励的权重,为第i架无人机t+1时刻的动作,为目标策略神经网络,为第i架无人机t+1时刻的观测状态;
采用反向传播算法获得损失函数的梯度,并对损失函数进行优化,以更新评判神经网络的权重参数;
所述目标神经网络的权重参数更新按照下式进行:
ω'new=τωnew+(1-τ)ω'
其中,ω'为目标神经网络更新前的参数,ω'new为目标神经网络更新后的参数,ωnew为评判神经网络更新后的参数,τ为滞后参数,取值为0.01;
步骤iii中,策略神经网络的策略梯度通过下式获得:
其中,θ=[θ1,…,θn]表示n个无人机执行策略的参数,μ=[μ1,…,μn]表示n个无人机的联合策略,
u为对应的角速度;表示第i个无人机在t时刻的观测状态,表示所有无人机在t时刻的联合观测状态,at为t时刻各个无人机的动作集合,pπ是状态的概率分布函数,是在无人机群体采用联合策略μ的前提下,第i个无人机的状态动作值函数,即评判神经网络的输出;J(θi)为策略神经网络优化用的目标函数,它表示第i个无人机的累积期望奖励:
其中,Ri为第i架无人机的累积回报,γ为折扣因子,x是无人机群体的联合观测状态,a是各个无人机执行的动作集合;其中累积回报中折扣因子γ=0.95,单回合最大步长为50,单次采样样本量为1024组;
步骤1-2中,所述多无人机与仿真环境交互的数据为元素组(xt,xt+1,a1,…,an,r1,…rn),其中,xt为所有无人机t时刻的联合观测状态;xt+1为所有无人机t+1时刻的联合观测状态;a1…an为n架无人机t时刻执行的动作;r1…rn为n架无人机t时刻执行动作后获得的奖励;n为无人机的个数;
步骤1-3-1中,
所述评判网络包括评判神经网络和目标神经网络,
所述执行网络包括策略神经网络和目标策略神经网络;
每个无人机都包括一组评判网络和执行网络;其中神经网络结构包括4层:一层输入层,两层隐藏层,一层输出层;
隐藏层的每层神经元个数:32;
神经元激活函数:线性整流函数;
步骤2包括以下子步骤:
步骤2-1,无人机获得观测状态;
步骤2-2,各无人机根据训练获得的行为策略模型输出动作行为。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010340657.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大闸蟹的养殖方法
- 下一篇:三维距离测定装置