[发明专利]一种基于强化学习的再入飞行器轨迹规划方法有效

申请号：	202110339389.2	申请日：	2021-03-30
公开（公告）号：	CN112947592B	公开（公告）日：	2022-06-10
发明（设计）人：	张冉;侯忻宜;李惠峰	申请（专利权）人：	北京航空航天大学
主分类号：	G05D1/12	分类号：	G05D1/12
代理公司：	北京慧泉知识产权代理有限公司 11232	代理人：	王顺荣;唐爱华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于强化学习再入飞行器轨迹规划方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，其具体步骤如下：步骤一、建立飞行器运动模型；步骤二、设置该方法的状态量，设计奖励函数；步骤三、根据步骤二中的状态量和奖励函数，采用强化学习进行交互训练；步骤四、根据步骤三中训练得到的神经网络模型，计算控制策略。通过以上步骤，本发明解决了初始状态偏差和禁飞区变更的问题，实现了飞行器的禁飞区规避和目标到达任务；本发明所述方法科学，工艺性好，具有广阔推广应用价值。

技术领域

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，属于航空航天技术中的轨迹规划领域。

背景技术

高超声速飞行器再入轨迹规划是一个多约束、强非线性的最优控制问题，目前应用最为广泛的是数值解法。但由于问题的高度复杂性，采用离散化和参数寻优的算法需要进行大量的迭代计算，在现有的计算资源条件下求解耗时较长。而高超声速飞行器作为一种快速有效的打击武器，在实际应用时会面临复杂的战场条件，如禁飞区突防、拦截、任务变更重构等，因此有必要对飞行器进行智能轨迹规划算法研究，使得飞行器具有实时进行自主轨迹重规划的能力，以应对瞬息万变的战场环境。考虑采用强化学习算法进行自主轨迹规划，是因为强化学习具有离线探索环境，在线给出策略的能力。通过离线进行大量的仿真，得到一套具有适应任务环境的动作选择策略，在具体应用时，只需知道当前状态即可得到合适的动作，从而使得飞行器得到可行的轨迹。

综上所述，智能轨迹规划方法相比于传统数值优化方法，具有快速性和应对突发情况的优势。本发明基于强化学习算法，对高超声速再入飞行器进行轨迹规划。该方法具有一定独创性。

发明内容

(一)本发明的目的

本发明的目的是提供一种基于强化学习的再入飞行器智能轨迹规划方法，用以实现飞行器的禁飞区规避和目标到达任务，解决初始状态偏差和禁飞区变更的问题。

(二)技术方案

本发明提供一种基于强化学习的再入飞行器轨迹规划方法，其具体步骤如下：

步骤一、建立飞行器运动模型；

根据再入飞行器的动力学特性，在仿真软件中建立质心运动方程，设置禁飞区和目标点位置，选取控制量；

步骤二、设置该方法的状态量，设计奖励函数；

根据飞行器当前位置和禁飞区以及目标点的位置，设计飞行器反馈给强化学习的状态量，由状态量的值设计奖励函数；

步骤三、根据步骤二中的状态量和奖励函数，采用强化学习进行交互训练；

将步骤二中的状态量作为强化学习的输入变量，利用设置的奖励函数，采用近端策略优化方法对控制量进行寻优，使得期望回报最大化；