首页在售求购查询申请展会资讯专利榜企服商城升级VIP

立即登录免费注册

在售专利
求购专利
查询专利
新闻资讯
技术展会
招商加盟
专利榜

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247 本网专利代理业务由天津创信方达专利代理事务所(普通合伙)承接机构代码：12247

[发明专利]一种基于深度强化学习的运载火箭垂直回收智能控制方法有效

申请号：	201811393548.1	申请日：	2018-11-21
公开（公告）号：	CN109343341B	公开（公告）日：	2021-10-01
发明（设计）人：	郜诗佳;谭浪;王德意;柳嘉润;李博睿;巩庆海;杨业;姬晓琴;翟雯婧	申请（专利权）人：	北京航天自动控制研究所;中国运载火箭技术研究院
主分类号：	G05B13/02	分类号：	G05B13/02;G05B13/04;G05D1/08;G05D1/10
代理公司：	中国航天科技专利中心 11009	代理人：	马全亮
地址：	100854 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度强化学习运载火箭垂直回收智能控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的运载火箭垂直回收方法，其特征在于步骤如下：

(1)搭建运载火箭垂直回收仿真模型，具体为：

其中，[X,Y,Z]和[V_x,V_y,V_z]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度，T_s为推力加速度的响应时间，[a_x,a_y,a_z]为推力加速度，u为控制量，F为主推力指令，作用在火箭质心，将其在x,y,z三个方向分解为F_x,F_y,F_z，m为火箭质量，α为角加速度，M₀为控制力力矩，F₁为控制力，J为转动惯量，ω为角速度，θ为姿态角；g₀为重力加速度；

(2)基于仿真模型，建立马尔科夫决策过程，包括状态空间、动作空间、状态转移方程以及回报函数；具体为：

状态空间：

S＝[X Y Z V_x V_y V_z a_x a_y a_z θ ω α A B]^T

其中，[X,Y,Z]和[V_x,V_y,V_z]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度，[a_x,a_y,a_z]为推力加速度,α为角加速度，ω为角速度，θ为姿态角，A为着陆指示，B为坏腿指示，A、B取值为1或-1；

动作空间是指基于控制信息，决定该时刻增加或减少推力的大小和方向，将其表示为：

U＝[F_x F_y F_z F₁δ]^T

其中，F_x,F_y,F_z为主推力F在x,y,z三个维度的分解，F₁为控制力，δ为推力摆角；

状态转移方程：

回报函数：

其中，P_fuel为能量消耗，s为距离目标回收位置的直线距离，V为火箭的速度，为火箭姿态角的绝对值，为加速度大小；

(3)根据深度强化学习算法，搭建神经网络；

(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数，对所述神经网络进行训练，得到训练好的神经网络模型；具体为：

(4.1)初始化策略神经网络参数和估值神经网络参数；

(4.2)对所述状态空间进行初始化，得到当前状态s_t；

(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为a_t，执行所述状态转移方程，得到下一步的火箭状态s_t+1，根据回报函数获取回报r_t，计算此步的优势函数A_t并保存，反复执行此过程T步；

(4.4)根据PPO算法的损失函数，运用梯度下降法更新策略神经网络参数和估值神经网络的参数；

(4.5)策略神经网络输出新策略，判断是否需要更新步长，若新旧策略的KL散度超出阈值则更新步长；

(4.6)反复执行N次(4.2)到(4.5)，从而完成神经网络模型的训练，保存训练好的神经网络模型；

(5)调用训练好的神经网络模型进行仿真验证；

(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京航天自动控制研究所;中国运载火箭技术研究院，未经北京航天自动控制研究所;中国运载火箭技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811393548.1/1.html，转载请声明来源钻瓜专利网。

上一篇：数据驱动的固定拓扑结构换热网络智能优化改造方法
下一篇：基于遗传算法的电除尘器节能优化方法和系统

同类专利

专利分类

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

友情链接：交换友情链接需要网站权重大于4，网站收录10W以上，如符合条件，请联系QQ：。

关于我们寻求报道投稿须知广告合作版权声明网站地图友情链接企业标识联系我们

在线咨询

周一至周五 9:00-18:00

版权所有http://www.vipzhuanli.com/公布日期

咨询在线客服

咨询在线客服

tel code back_top