[发明专利]一种基于强化学习的机动智能决策规避导弹方法有效
申请号: | 202110769584.9 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113671825B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 樊养余;刘洋;段昱;刘曦春;吕国云;张君昌 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 王萌 |
地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 机动 智能 决策 规避 导弹 方法 | ||
1.一种基于强化学习的机动智能决策规避导弹方法,其特征在于,所述机动智能决策规避导弹方法包括:
步骤1、在Unity端,建立强化学习环境;
步骤2、搭建第一神经网络,所述第一神经网络包括决策网络和好奇心网络,设置奖励值判别机制,其中,奖励值由第一奖励值和第二奖励值组成,所述第一奖励值由所述好奇心网络计算得出;所述好奇心网络包括前向网络和反向网络,所述前向网络包括目标网络和预测网络;
步骤3、在Python端,在所述强化学习环境下,训练所述第一神经网络得到训练完成的神经网络,包括:
步骤3.1、将智能体随机所做的第一动作对应的第一环境状态输入至所述第一神经网络,所述决策网络输出所述智能体的第二动作,所述好奇心网络输出第二环境状态,以得到一组第一训练数据集,所述第一训练数据集包括若干第二动作和若干第二环境状态;
步骤3.2、将所述第一训练数据集输入至所述第一神经网络中,利用所述决策网络的损失函数和所述好奇心网络损失函数进行反向传播,使所述损失函数收敛,以得到第二神经网络;
步骤3.3、将智能体指定所做的第三动作对应的第三环境状态输入至所述第二神经网络,所述决策网络输出所述智能体的第四动作,所述好奇心网络输出第四环境状态,以得到一组第二训练数据集,所述第二训练数据集包括若干第四动作和若干第四环境状态;
步骤3.4、将所述第二训练数据集输入至所述第二神经网络中,利用所述决策网络的损失函数和所述好奇心网络损失函数进行反向传播,使所述损失函数收敛,以得到训练完成的神经网络;
步骤4、利用所述训练完成的神经网络对导弹进行规避。
2.根据权利要求1所述的机动智能决策规避导弹方法,其特征在于,所述步骤1包括:
建立飞行器动力学模型和制导导弹所满足的运动方程组,其中,飞行器动力学模型包括飞行器受到的气动升力、飞行器受到的气动侧力和飞行器受到的阻力。
3.根据权利要求2所述的机动智能决策规避导弹方法,其特征在于,所述飞行器受到的气动升力为:
其中,L为气动升力,ρ为空气密度,V为空速,s为机翼面积,CL为升力系数;
所述飞行器受到的气动侧力为:
其中,sf为气动侧力,CY为侧力系数;
所述飞行器受到的阻力为:
其中,drag为阻力,CD为阻力系数。
4.根据权利要求2所述的机动智能决策规避导弹方法,其特征在于,所述制导导弹所满足的运动方程组为:
其中,r为导弹与目标的距离,q为目标视线角,v为导弹的速度,vt为目标的速度,σ为导弹速度向量与基准线之间的夹角,σt为目标速度向量与基准线之间的夹角,η为导弹速度向量与目标视线之间的夹角,ηt为飞行器速度向量与目标视线之间的夹角,K为导引系数,ε=0为导引关系式。
5.根据权利要求1所述的机动智能决策规避导弹方法,其特征在于,所述决策网络使用PPO算法作为决策方法。
6.根据权利要求1所述的机动智能决策规避导弹方法,其特征在于,所述前向网络的损失函数为:
其中,LF为所述前向网络的损失值,ft(st;θF)为所述目标网络,为所述预测网络,st为当前智能体观测到的环境状态空间,θF为所述目标网络的参数,为所述预测网络需要拟合的参数。
7.根据权利要求6所述的机动智能决策规避导弹方法,其特征在于,所述反向网络的损失函数为:
其中,LI为所述反向网络的损失值,at为所述目标网络的输出,为所述预测网络的输出。
8.根据权利要求7所述的机动智能决策规避导弹方法,其特征在于,所述好奇心网络的目标函数为:
其中,LCLIP为截断函数损失,α为超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110769584.9/1.html,转载请声明来源钻瓜专利网。