[发明专利]一种基于奖励重塑强化学习的飞行器智能引导方法有效

申请号：	201911307975.8	申请日：	2019-12-18
公开（公告）号：	CN111026157B	公开（公告）日：	2020-07-28
发明（设计）人：	李辉;王壮;陈希亮;吴昭欣;吴昊霖	申请（专利权）人：	四川大学
主分类号：	G05D1/10	分类号：	G05D1/10
代理公司：	暂无信息	代理人：	暂无信息
地址：	610065 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于奖励重塑强化学习飞行器智能引导方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于奖励重塑强化学习的飞行器智能引导方法，包括下述步骤：首先设置使用空域范围，以及飞行器和目的地的动态模型；然后，构建深度强化学习智能体，并重塑奖励函数，包括终止条件奖励、引导平滑性奖励、飞行器姿态奖励；之后，在训练模式下，设置飞行器初始姿态，目的地初始位置、朝向，并使用强化学习方法训练引导智能体；最后，在应用模式下，使用训练完成的引导智能体，引导飞行器沿着特定方向到达移动的目的地。本发明的方法可以应用在现有飞行器指挥引导系统中，采用预先规划或实时指挥的方式，引导飞行器从任意姿态开始，沿着特定方向到达移动目的地。

技术领域

本发明涉及飞行器指挥引导领域，特别涉及一种基于奖励重塑强化学习的飞行器智能引导方法。

背景技术

在诸多飞行任务中，需要引导飞行器沿着特定方向到达移动目的地。如战斗机空战占位任务，需要引导飞机到达不断移动的目标后方并朝向目标；舰载机降落任务中，需要在航母航行中引导舰载机沿跑道方向到达航母；空中加油任务中，需要引导飞机到达直线航行加油机的正后方等。

现有算法对引导飞行器到达移动无朝向要求的目的地以及固定位置有朝向要求的目的地有许多研究，如引导旋转翼无人机降落到移动车辆上，引导固定翼飞机沿跑道方向到达机场。对于移动有朝向要求目的地的引导，大多采用提前规划、固定区域等待等方法实现，计算效率低，无法满足实际飞行任务中实时性的要求，仍需要进一步研究。强化学习执行效率高，使用灵活，与奖励重塑方法结合后，可用在飞行器指挥引导系统中，支持按照现有模式在飞行任务前生成引导规划，也支持实时、准确给出引导指令，对战斗机空中占位、舰载机降落、空中加油等目的地移动且有朝向要求的飞行任务具有实践意义

发明内容

本发明的目的在于克服现有技术的缺点与不足，提出一种基于奖励重塑强化学习的飞行器智能引导方法，训练飞行器引导智能体，针对移动的，具有朝向要求的目的地，预先给出引导航迹或实时给出引导指令。

为实现以上目的，本发明采取如下技术方案：

一种基于奖励重塑强化学习的飞行器智能引导方法，包括下述步骤：

(1)根据飞行任务确定使用空域范围，设置飞行器的动态模型及可移动目的地的动态模型；

(2)依据飞行器特性，构建基于深度强化学习的引导智能体，智能体的输入是飞行器姿态和目的地信息，输出是对飞行器的引导指令；

(3)根据飞行任务，从终止条件、引导平稳性、飞行器与目的地相对姿态等方面重塑强化学习奖励函数；

(4)在训练模式下，设置飞行器初始姿态，包括三维坐标、俯仰角、朝向角、速度、剩余油量，设置目的地三维坐标、速度和朝向角，设置训练终止条件；

(5)利用深度强化学习的方法，训练引导智能体深度神经网络，在每个训练步长内，根据飞行器当前姿态，生成引导指令，根据指令质量给出重塑后的奖励值，最终引导飞行器沿特定方向到达按动态模型移动的目的地；

(6)经过海量训练后，在应用模式下，根据输入的飞行器姿态和目的地信息，准确地生成引导指令，引导飞行器沿特定方向到达移动目的地。

作为优选的技术方案，步骤(1)中，目的地是移动的，具备动态模型。

作为优选的技术方案，步骤(3)中，重塑奖励函数的具体计算过程如下：