[发明专利]一种基于深度强化学习与图像视觉的作战仿真推演方法有效
申请号: | 202210485101.7 | 申请日: | 2022-05-06 |
公开(公告)号: | CN114925601B | 公开(公告)日: | 2023-07-11 |
发明(设计)人: | 魏明强;石鼎;燕雪峰;宫丽娜;张静宣;关东海 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06V10/40;G06V10/82;G06N20/00;G06N3/0464;G06N3/0455;G06N3/092;G06N3/084 |
代理公司: | 南京有岸知识产权代理事务所(特殊普通合伙) 32757 | 代理人: | 王磊 |
地址: | 210001 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 图像 视觉 作战 仿真 推演 方法 | ||
1.一种基于深度强化学习与图像视觉的作战仿真推演方法,其特征在于,包括以下步骤:
步骤S1、利用Gym库提供的接口进行自定义军事作战仿真环境的搭建;所述军事作战仿真环境包括:红方和蓝方的战斗机数量,蓝方水听阵数量,蓝方舰艇数量,红方和蓝方战斗机、蓝方水听阵、蓝方舰艇的位置及状态;
步骤S2、对于搭建的作战仿真环境中的每一个智能体,设计对应的奖励函数R(Rred,Rblue,Rir,Rjb);所述智能体为军事作战仿真环境中的战斗机;其中,Rred表示红方的全局奖励函数,Rblue表示蓝方的全局奖励函数,Rir表示红方的每个智能体设计局部奖励函数,Rjb表示蓝方的每个智能体设置局部奖励函数;包括如下子步骤:
步骤S201、根据红方的战斗机与蓝方战斗机的距离设置第一距离奖励,根据红方战斗机与蓝方水听阵的距离设置第二距离奖励,根据红方战斗机与蓝方舰艇的距离设置第三距离奖励,通过设置第一距离奖励、第二距离奖励、第三距离奖励对应的奖励系数,计算出红方的全局奖励函数Rred:
其中,dis()为距离函数,m为红方的战斗机数量,i为红方的战斗机的索引,Fi为红方的第i架战斗机,ns为蓝方战斗机数量,j为蓝方的战斗机的索引,Sj表示蓝方的第j架战斗机,α1为第一距离奖励的奖励系数,nw为蓝方水听阵数量,w为蓝方水听阵的索引,Wu为蓝方的第w个水听阵,α2为第二距离奖励的奖励系数,D为蓝方的舰艇,α3为第三距离奖励的奖励系数;
步骤S202、根据红方的战斗机与蓝方战斗机的距离设置蓝方的全局奖励函数Rblue为:
其中,α4为蓝方的全局奖励函数的奖励系数;
步骤S203、根据红方的当前战斗机与红方的其他战斗机的碰撞损失、红方的当前战斗机与蓝方所有战斗机的距离奖励、红方的当前战斗机与蓝方所有水听阵的距离奖励,为红方的每个智能体设计局部奖励函数Rir:
其中,Fz表示红方的不为当前战斗机的第z架战斗机,δ1为红方的当前战斗机与红方的其他战斗机的碰撞损失的碰撞损失系数,δ2为红方的当前战斗机与蓝方所有战斗机的距离奖励的奖励系数,δ3为红方的当前战斗机与蓝方所有水听阵的距离奖励的奖励系数;
步骤S204、根据蓝方的当前战斗机与蓝方其他战斗机的碰撞损失、蓝方的当前战斗机与红方所有战斗机的距离奖励,为蓝方的每个智能体设置局部奖励函数Rjb为:
其中,Sk为蓝方的不为当前战斗机的第k架战斗机,ε1为蓝方的当前战斗机与蓝方其他战斗机的碰撞损失的损失系数,ε2为蓝方的当前战斗机与红方所有战斗机的距离奖励的奖励系数;
步骤S3、将搭建的仿真环境的RGB图像中每个像素作为输入特征,通过深度神经网络进行深层特征的提取;
步骤S4、在MADDPG算法中对每一个智能体设置一个对应的局部Critic网络进行数据解耦,并通过优先经验回收机制对智能体进行采样,得到改进的MADDPG算法;包括如下子步骤:
步骤S301、构建深度神经网络,包括:KeyNet网络、编码器、解码器、ResNet50骨干网络,所述KeyNet网络、编码器均与解码器连接,所述解码器与ResNet50骨干网络连接;
步骤S302、将搭建的仿真环境的RGB图像中每个像素输入KeyNet网络中按照通道融合,提取关键点信息;
步骤S303、使用编码器对搭建的仿真环境的RGB图像中每个像素进行编码,并与步骤S302获取的关键点信息进行点乘,过滤掉关键点以外的信息,获得不带背景信息的像素特征,然后通过解码器进行解码,获得仿真环境的前景图像;
步骤S304、使用ResNet50作为骨干网络对步骤S303获得的仿真环境的前景图像进行深层特征提取;
步骤S5、基于步骤S3提取的深层特征,训练改进的MADDPG算法,直至奖励函数的损失收敛,完成对改进的MADDPG算法的训练;
步骤S6、再次搭建一个军事作战仿真环境,重复步骤S2-步骤S3后,输入训练好的改进的MADDPG算法中,输出最优的军事仿真推演模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210485101.7/1.html,转载请声明来源钻瓜专利网。