[发明专利]一种基于强化学习的再入飞行器轨迹规划方法有效
申请号: | 202110339389.2 | 申请日: | 2021-03-30 |
公开(公告)号: | CN112947592B | 公开(公告)日: | 2022-06-10 |
发明(设计)人: | 张冉;侯忻宜;李惠峰 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05D1/12 | 分类号: | G05D1/12 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 王顺荣;唐爱华 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 再入 飞行器 轨迹 规划 方法 | ||
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:步骤一、建立飞行器运动模型;步骤二、设置该方法的状态量,设计奖励函数;步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略。通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务;本发明所述方法科学,工艺性好,具有广阔推广应用价值。
技术领域
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,属于航空航天技术中的轨迹规划领域。
背景技术
高超声速飞行器再入轨迹规划是一个多约束、强非线性的最优控制问题,目前应用最为广泛的是数值解法。但由于问题的高度复杂性,采用离散化和参数寻优的算法需要进行大量的迭代计算,在现有的计算资源条件下求解耗时较长。而高超声速飞行器作为一种快速有效的打击武器,在实际应用时会面临复杂的战场条件,如禁飞区突防、拦截、任务变更重构等,因此有必要对飞行器进行智能轨迹规划算法研究,使得飞行器具有实时进行自主轨迹重规划的能力,以应对瞬息万变的战场环境。考虑采用强化学习算法进行自主轨迹规划,是因为强化学习具有离线探索环境,在线给出策略的能力。通过离线进行大量的仿真,得到一套具有适应任务环境的动作选择策略,在具体应用时,只需知道当前状态即可得到合适的动作,从而使得飞行器得到可行的轨迹。
综上所述,智能轨迹规划方法相比于传统数值优化方法,具有快速性和应对突发情况的优势。本发明基于强化学习算法,对高超声速再入飞行器进行轨迹规划。该方法具有一定独创性。
发明内容
(一)本发明的目的
本发明的目的是提供一种基于强化学习的再入飞行器智能轨迹规划方法,用以实现飞行器的禁飞区规避和目标到达任务,解决初始状态偏差和禁飞区变更的问题。
(二)技术方案
本发明提供一种基于强化学习的再入飞行器轨迹规划方法,其具体步骤如下:
步骤一、建立飞行器运动模型;
根据再入飞行器的动力学特性,在仿真软件中建立质心运动方程,设置禁飞区和目标点位置,选取控制量;
步骤二、设置该方法的状态量,设计奖励函数;
根据飞行器当前位置和禁飞区以及目标点的位置,设计飞行器反馈给强化学习的状态量,由状态量的值设计奖励函数;
步骤三、根据步骤二中的状态量和奖励函数,采用强化学习进行交互训练;
将步骤二中的状态量作为强化学习的输入变量,利用设置的奖励函数,采用近端策略优化方法对控制量进行寻优,使得期望回报最大化;
步骤四、根据步骤三中训练得到的神经网络模型,计算控制策略;
将训练得到的神经网络保存,在仿真环境中给出初始状态量作为网络模型的输入,实时计算所需控制量,输出到仿真环境中控制飞行器运动一段时间,得到下一时刻的状态量,重复以上过程,直到飞行器到达目标点;
通过以上步骤,本发明解决了初始状态偏差和禁飞区变更的问题,实现了飞行器的禁飞区规避和目标到达任务。
其中,在步骤一中所述的“建立飞行器运动模型”,其具体作法如下:
将地球视为均质圆球,考虑地球曲率的影响,并且假设地球无自转,建立飞行器的三自由度质心运动模型,飞行器的运动方程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110339389.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能型无负压设备及控制方法
- 下一篇:一种可防水的生态农业种植棚