[发明专利]一种基于强化学习的机动智能决策规避导弹方法有效
申请号: | 202110769584.9 | 申请日: | 2021-07-07 |
公开(公告)号: | CN113671825B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 樊养余;刘洋;段昱;刘曦春;吕国云;张君昌 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 西安嘉思特知识产权代理事务所(普通合伙) 61230 | 代理人: | 王萌 |
地址: | 710072 陕西*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 机动 智能 决策 规避 导弹 方法 | ||
本发明公开了一种基于强化学习的机动智能决策规避导弹方法,方法包括:步骤1、在Unity端,建立强化学习环境;步骤2、搭建第一神经网络,所述第一神经网络包括决策网络和好奇心网络,设置奖励值判别机制,其中,奖励值由第一奖励值和第二奖励值组成,所述第一奖励值由所述好奇心网络计算得出;步骤3、在Python端,在所述强化学习环境下,训练所述第一神经网络得到训练完成的神经网络;步骤4、利用所述训练完成的神经网络对导弹进行规避。本发明的规避决策的神经网络结构简单,易于训练且实时性好。本发明利用神经网络作为状态空间到动作空间的映射函数,有效解决的传统算法中状态空间大、动作空间大等缺点。
技术领域
本发明属于导弹规避技术领域,具体涉及一种基于强化学习的机动智能决策规避导弹方法。
背景技术
空战机动智能决策是近年来的研究热点,而合理规避导弹则是现代空战决策研究的关键组成部分。现代空战中,导弹是飞行器最大的威胁。导弹在空域具有速度快、碰撞扇形区域半径大、航线不固定等特点,对飞行器有极大的摧毁能力。因此,如何对导弹打击进行规避,是现代飞行器研究的必修课题。目前,军事模拟领域中使用面向人工智能技术的建模与仿真越来越多。傅莉等人采用专家系统进行分析决策,张涛等人提出优化理论方法对该问题进行求解。张宏鹏借助第一神经网络对机动动作进行最优规划,谢新辉建立了战斗机末端规避的数学模型,分析了滚筒机动的末端规避性能。
上述方法在机动智能决策过程中,都是通过从现有的机动动作库中选出最优机动序列实现,具有状态空间大、动作空间大、容易收敛至局部最优等缺点,对机动库没有涉及的情况表现较差。
但是,上述方法会导致在搜索最优决策时,时间及空间复杂度过高,不符合空战决策的实时性要求,无法适应瞬息万变的战场环境。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于强化学习的机动智能决策规避导弹方法。本发明要解决的技术问题通过以下技术方案实现:
一种基于强化学习的机动智能决策规避导弹方法,所述机动智能决策规避导弹方法包括:
步骤1、在Unity端,建立强化学习环境;
步骤2、搭建第一神经网络,所述第一神经网络包括决策网络和好奇心网络,设置奖励值判别机制,其中,奖励值由第一奖励值和第二奖励值组成,所述第一奖励值由所述好奇心网络计算得出;
步骤3、在Python端,在所述强化学习环境下,训练所述第一神经网络得到训练完成的神经网络;
步骤4、利用所述训练完成的神经网络对导弹进行规避。
在本发明的一个实施例中,所述步骤1包括:
建立飞行器动力学模型和制导导弹所满足的运动方程组,其中,飞行器动力学模型包括飞行器受到的气动升力、飞行器受到的气动侧力和飞行器受到的阻力。
在本发明的一个实施例中,所述飞行器受到的气动升力为:
其中,L为气动升力,ρ为空气密度,V为空速,s为机翼面积,CL为升力系数;
所述飞行器受到的气动侧力为:
其中,sf为气动侧力,CY为侧力系数;
所述飞行器受到的阻力为:
其中,drag为阻力,CD为阻力系数。
在本发明的一个实施例中,所述制导导弹所满足的运动方程组为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110769584.9/2.html,转载请声明来源钻瓜专利网。