[发明专利]基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法有效

申请号：	202011585596.8	申请日：	2020-12-29
公开（公告）号：	CN112286218B	公开（公告）日：	2021-03-26
发明（设计）人：	陈坤	申请（专利权）人：	南京理工大学
主分类号：	G05D1/08	分类号：	G05D1/08
代理公司：	南京理工大学专利中心 32203	代理人：	陈鹏
地址：	210094 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度确定性策略梯度飞行器大迎摇滚抑制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度确定性策略算法的飞行器大迎角摇滚抑制方法，包括搭建摇滚抑制问题强化学习环境和针对控制目标设计深度确定性策略智能体两部分，将目标飞行器模型安装在风洞中的滚转单自由度释放机构上，在每一个时间步上，根据滚转单自由度释放机构采集到的数据和智能体输送进来的舵机控制指令生成一组经验数据，并将这组经验数据添加到经验缓存区，以供智能体采样进行控制策略自学习；在每一个时间步上，通过从经验数据缓存区采样得到的经验数据，基于深度确定性策略梯度算法，调节四个深度网络的参数，通过向强化学习环境输送舵机控制指令。本发明采用深度确定性策略梯度方法，实现不依赖于模型的飞行器大迎角摇滚最优控制器设计。

技术领域

本发明属于大迎角飞行控制技术领域，特别是一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。

背景技术

飞行器在大迎角机动情况下，非常容易产生摇滚非指令运动，对于细长三角翼而言（后掠角≥75°），通常表现为以零度滚转角为中心的极限环振荡，对于非细长三角翼而言（后掠角≤65°），摇滚通常伴随有非零滚转中心角。这种摇滚运动对于高机动飞行器而言非常危险，但是为了完成某些机动动作，有时候必须要进入大迎角区域。

飞行器大迎角情况下的气动特性表现出高度非定常非线性现象。一方面，由于其气动特性复杂，致使传统的基于精确模型的PID等控制方法在这一特定迎角范围控制效果表现糟糕；另一方面，在大迎角下，为飞行器建立精确的气动模型本身就是非常困难的一项工作，所以很多基于模型的现代先进控制设计方法，如鲁棒控制等，也因为这一问题难以开展。

发明内容

本发明基于深度确定性策略梯度，结合低速风洞实验，提出一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法。

为实现上述目的，本发明采用的技术方案如下：一种基于深度确定性策略梯度的飞行器大迎角摇滚抑制方法，该方法包括：

通过虚拟飞行技术搭建强化学习环境：将目标飞行器模型安装在风洞中的滚转单自由度释放机构上，在每一个时间步上，将滚转单自由度释放机构采集到的数据作为观测量，将智能体输送进来的舵机控制指令作为动作量，基于观测量和动作量，计算此动作产生的奖励信号，并组合观测量，动作量以及奖励信号生成一组经验数据，并将这组经验数据添加到经验缓存区，以供智能体采样进行控制策略自学习；

构建摇滚抑制深度确定性策略梯度算法智能体：在每一个时间步上，通过从经验数据缓存区采样得到的经验数据，基于深度确定性策略梯度算法，调节四个深度网络的参数，通过向强化学习环境输送舵机控制指令。

与现有技术相比，本发明的显著优点为：（1）常规的控制方法需要提供一个相对准确的动力学模型，在此基础上进行控制律的设计，而大迎角建模是一个很复杂的问题，本发明绕开了非线性气动力难以精确建模的困境，采用深度确定性策略梯度方法，实现不依赖于模型的飞行器大迎角摇滚最优控制器设计；（2）由于大迎角情况下，飞行器的动力学特性极度非线性，故其最优控制策略往往是关于观测量的非线性函数，本发明由于采用了神经网络来表达策略，神经网络具有表达任何一种非线性函数的能力，故智能体可以自学习出任何一种非线性的控制律。

附图说明

图1为风洞实验滚转单自由度释放机构示意图。

图2为强化学习环境结构示意图。

图3为针对摇滚抑制的DDPG算法流程图。

具体实施方式

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京理工大学，未经南京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011585596.8/2.html，转载请声明来源钻瓜专利网。