首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种飞行器双延迟深度确定性策略梯度姿态控制方法有效

申请号：	202210113006.4	申请日：	2022-01-29
公开（公告）号：	CN114489107B	公开（公告）日：	2022-10-25
发明（设计）人：	韦常柱;朱光楠;刘哲;浦甲伦;徐世昊	申请（专利权）人：	哈尔滨逐宇航天科技有限责任公司
主分类号：	G05D1/08	分类号：	G05D1/08
代理公司：	哈尔滨龙科专利代理有限公司 23206	代理人：	高媛
地址：	150000 黑龙江省哈尔***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种飞行器延迟深度确定性策略梯度姿态控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种飞行器双延迟深度确定性策略梯度姿态控制方法，其特征在于：所述方法包括如下步骤：

S1：建立飞行器动力学模型，封装形成强化学习环境；

S2：初始化强化学习交互环境、飞行器以及最大步数；

S201：强化学习交互环境包含：总观测量o_T、动作量a_T以及奖励函数三类，

定义：

每一个仿真时间步t观测量为o_t＝{V,γ,θ,Q}，其中：V表示速度；γ表示航迹倾角；θ表示俯仰角；Q表示姿态角速率；

总观测量o_T＝{o_t-3,o_t-2,o_t-1,o_t}；t-3表示仿真时间步t之前的3个时间步，t-2表示仿真时间步t之前的2个时间步，t-1表示仿真时间步t之前的1个时间步；

动作量为a_T＝{φ,δ_e}，其中：φ表示燃料空气混合比；δ_e表示升降舵偏角；

奖励函数为r_T＝r₁+r₂，其中：r₁表示与速度和航迹倾角控制误差相关的奖励函数，且r₁＝λ₁(V-V_r)²+λ₂(γ-γ_r)²，V_r为速度指令，γ_r为航迹倾角指令，λ₁,λ₂设定为负数，用来惩罚速度和航迹倾角的控制误差；r₂项设计目的是在速度和航迹倾角控制误差较小时给予奖励，且总观测量o_T设计为连续四个仿真时间步观测量o_t-3,o_t-2,o_t-1,o_t的叠加；

若|V-V_r|＜ε₁且|γ-γ_r|＜ε₂，其中：ε₁,ε₂表示理想的控制精度，则r₂＝P，P＞0表示速度和航迹角控制精度理想时的奖励函数值，否则r₂＝0；

S202：强化学习飞行器包含六个神经网络，分别为：Actor网络μ(o_T)、目标Actor网络μ_t(o_T)、Critic网络一Critic网络二目标Critic网络一以及目标Critic网络二

其中：

Actor网络的输入为总观测量o_T，输出为动作量a_T；

Critic网络一以及Critic网络二的输入均为总观测量o_T和动作量a_T，输出量均为飞行器采取动作量后所得到的累积奖励的期望值；

且Actor网络与目标Actor网络的结构相同，Critic网络一与目标Critic网络一的结构相同，Critic网络二与目标Critic网络二的结构相同，随机初始化每个神经网络的参数，并使初始化的每个神经网络的参数与对应的目标神经网络的参数相同，即：

其中：

θ_μ为Actor网络的参数；

为目标Actor网络的参数；

为Critic网络一的参数；

为目标Critic网络一的参数；

为Critic网络二的参数；

为目标Critic网络二的参数；

S203：设置强化学习最大步数为N_step；

S3：获得飞行器的控制量作为动作量；计算动作量对应的奖励函数值及下一个观测量，将经验数据存入至经验回放区；

S4：自经验回放区中随机采样经验数据，基于双延迟深度确定性策略梯度算法对飞行器参数进行调整，完成一轮强化学习；

S401：从经验回放区中随机采样M个四元组，记为B，B_i,1≤i≤M为B中的第i个四元组；

S402：将B_i中的总观测量o_T输入目标Actor网络，叠加随机噪声得到动作将限幅至限幅至

S403：将动作与观测量o_T+1分别输入Critic网络一和Critic网络二中，分别得到输出量

S404：计算值函数其中：表示折扣因子，min(Q_1i,Q_2i)表示Q_1i,Q_2i间的最小值；

S405：重复S402-S404，计算得到B中所有四元组对应的输出量以及值函数；

S406：计算Critic网络一的损失函数Critic网络二的损失函数采用梯度下降方法，以最小化L₁与L₂为目标更新Critic网络一与Critic网络二的参数

S407：以最优化为目标，采用梯度上升方法更新Actor网络的参数θ_μ；

S408：采用下式更新目标Actor、目标Critic网络一以及目标Critic网络二的参数：

式(2)中：

0＜τ＜1为平滑更新因子；

至此完成了一轮强化学习；

若强化学习累积轮数未达到S203中定义最大步数，则返回S3；否则结束强化学习；

S5：结束强化学习后，保存飞行器，保存Actor网络，作为自适应控制器使用；所述自适应控制器在输入总观测量的条件下，输出飞行器控制量燃料空气混合比与升降舵偏角。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨逐宇航天科技有限责任公司，未经哈尔滨逐宇航天科技有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210113006.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种终端设备、长截屏方法和存储介质
下一篇：方向盘脱手检测方法及装置、电子设备和存储介质

同类专利

专利分类

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top