[发明专利]一种基于强化学习的机动智能决策规避导弹方法有效

申请号：	202110769584.9	申请日：	2021-07-07
公开（公告）号：	CN113671825B	公开（公告）日：	2023-09-08
发明（设计）人：	樊养余;刘洋;段昱;刘曦春;吕国云;张君昌	申请（专利权）人：	西北工业大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	西安嘉思特知识产权代理事务所(普通合伙) 61230	代理人：	王萌
地址：	710072 陕西***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习机动智能决策规避导弹方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于强化学习的机动智能决策规避导弹方法，方法包括：步骤1、在Unity端，建立强化学习环境；步骤2、搭建第一神经网络，所述第一神经网络包括决策网络和好奇心网络，设置奖励值判别机制，其中，奖励值由第一奖励值和第二奖励值组成，所述第一奖励值由所述好奇心网络计算得出；步骤3、在Python端，在所述强化学习环境下，训练所述第一神经网络得到训练完成的神经网络；步骤4、利用所述训练完成的神经网络对导弹进行规避。本发明的规避决策的神经网络结构简单，易于训练且实时性好。本发明利用神经网络作为状态空间到动作空间的映射函数，有效解决的传统算法中状态空间大、动作空间大等缺点。

技术领域

本发明属于导弹规避技术领域，具体涉及一种基于强化学习的机动智能决策规避导弹方法。

背景技术

空战机动智能决策是近年来的研究热点，而合理规避导弹则是现代空战决策研究的关键组成部分。现代空战中，导弹是飞行器最大的威胁。导弹在空域具有速度快、碰撞扇形区域半径大、航线不固定等特点，对飞行器有极大的摧毁能力。因此，如何对导弹打击进行规避，是现代飞行器研究的必修课题。目前，军事模拟领域中使用面向人工智能技术的建模与仿真越来越多。傅莉等人采用专家系统进行分析决策，张涛等人提出优化理论方法对该问题进行求解。张宏鹏借助第一神经网络对机动动作进行最优规划，谢新辉建立了战斗机末端规避的数学模型，分析了滚筒机动的末端规避性能。

上述方法在机动智能决策过程中，都是通过从现有的机动动作库中选出最优机动序列实现，具有状态空间大、动作空间大、容易收敛至局部最优等缺点，对机动库没有涉及的情况表现较差。

但是，上述方法会导致在搜索最优决策时，时间及空间复杂度过高，不符合空战决策的实时性要求，无法适应瞬息万变的战场环境。

发明内容

为了解决现有技术中存在的上述问题，本发明提供了一种基于强化学习的机动智能决策规避导弹方法。本发明要解决的技术问题通过以下技术方案实现：

一种基于强化学习的机动智能决策规避导弹方法，所述机动智能决策规避导弹方法包括：

步骤1、在Unity端，建立强化学习环境；

步骤2、搭建第一神经网络，所述第一神经网络包括决策网络和好奇心网络，设置奖励值判别机制，其中，奖励值由第一奖励值和第二奖励值组成，所述第一奖励值由所述好奇心网络计算得出；

步骤3、在Python端，在所述强化学习环境下，训练所述第一神经网络得到训练完成的神经网络；

步骤4、利用所述训练完成的神经网络对导弹进行规避。

在本发明的一个实施例中，所述步骤1包括：

建立飞行器动力学模型和制导导弹所满足的运动方程组，其中，飞行器动力学模型包括飞行器受到的气动升力、飞行器受到的气动侧力和飞行器受到的阻力。

在本发明的一个实施例中，所述飞行器受到的气动升力为：