[发明专利]一种基于深度强化学习的运载火箭垂直回收智能控制方法有效
申请号: | 201811393548.1 | 申请日: | 2018-11-21 |
公开(公告)号: | CN109343341B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 郜诗佳;谭浪;王德意;柳嘉润;李博睿;巩庆海;杨业;姬晓琴;翟雯婧 | 申请(专利权)人: | 北京航天自动控制研究所;中国运载火箭技术研究院 |
主分类号: | G05B13/02 | 分类号: | G05B13/02;G05B13/04;G05D1/08;G05D1/10 |
代理公司: | 中国航天科技专利中心 11009 | 代理人: | 马全亮 |
地址: | 100854 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 运载火箭 垂直 回收 智能 控制 方法 | ||
1.一种基于深度强化学习的运载火箭垂直回收方法,其特征在于步骤如下:
(1)搭建运载火箭垂直回收仿真模型,具体为:
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,Ts为推力加速度的响应时间,[ax,ay,az]为推力加速度,u为控制量,F为主推力指令,作用在火箭质心,将其在x,y,z三个方向分解为Fx,Fy,Fz,m为火箭质量,α为角加速度,M0为控制力力矩,F1为控制力,J为转动惯量,ω为角速度,θ为姿态角;g0为重力加速度;
(2)基于仿真模型,建立马尔科夫决策过程,包括状态空间、动作空间、状态转移方程以及回报函数;具体为:
状态空间:
S=[X Y Z Vx Vy Vz ax ay az θ ω α A B]T
其中,[X,Y,Z]和[Vx,Vy,Vz]分别表示运载火箭在目标相对坐标系下的x,y,z三个方向上的位置和速度,[ax,ay,az]为推力加速度,α为角加速度,ω为角速度,θ为姿态角,A为着陆指示,B为坏腿指示,A、B取值为1或-1;
动作空间是指基于控制信息,决定该时刻增加或减少推力的大小和方向,将其表示为:
U=[Fx Fy Fz F1δ]T
其中,Fx,Fy,Fz为主推力F在x,y,z三个维度的分解,F1为控制力,δ为推力摆角;
状态转移方程:
回报函数:
其中,Pfuel为能量消耗,s为距离目标回收位置的直线距离,V为火箭的速度,为火箭姿态角的绝对值,为加速度大小;
(3)根据深度强化学习算法,搭建神经网络;
(4)基于所述运载火箭垂直回收仿真模型、状态空间、动作空间、状态转移方程以及回报函数,对所述神经网络进行训练,得到训练好的神经网络模型;具体为:
(4.1)初始化策略神经网络参数和估值神经网络参数;
(4.2)对所述状态空间进行初始化,得到当前状态st;
(4.3)运载火箭垂直回收仿真模型根据策略神经网络输出的策略基于动作空间选择行为at,执行所述状态转移方程,得到下一步的火箭状态st+1,根据回报函数获取回报rt,计算此步的优势函数At并保存,反复执行此过程T步;
(4.4)根据PPO算法的损失函数,运用梯度下降法更新策略神经网络参数和估值神经网络的参数;
(4.5)策略神经网络输出新策略,判断是否需要更新步长,若新旧策略的KL散度超出阈值则更新步长;
(4.6)反复执行N次(4.2)到(4.5),从而完成神经网络模型的训练,保存训练好的神经网络模型;
(5)调用训练好的神经网络模型进行仿真验证;
(6)根据仿真验证后的神经网络模型控制运载火箭实现垂直回收。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航天自动控制研究所;中国运载火箭技术研究院,未经北京航天自动控制研究所;中国运载火箭技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811393548.1/1.html,转载请声明来源钻瓜专利网。