[发明专利]一种基于强化学习的空间非合作目标参数自整定追踪方法有效
申请号: | 201911172906.0 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110850719B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 师鹏;王逍;张冉;邓忠民;赵育善;徐添 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 空间 合作 目标 参数 追踪 方法 | ||
1.一种基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于,包括以下步骤:
第一步,针对(a)失效卫星,(b)带机动非合作目标的两种情形,分别建立追踪星与目标星的相对动力学模型,设计控制律;
第二步,根据第一步的动力学模型及控制律,建立基于强化学习的参数自整定学习框架;
第三步,根据第二步的所述学习框架,通过由模糊系统组成的执行器Actor和评价器Critic部分,分别获取当前控制参数和当前状态对应的值函数,通过与智能体所处环境交互,获取下一状态值函数与回报,基于时间差分法与梯度下降法,通过迭代逐次优化控制参数进行学习;学习结束时,得到优化后的控制参数,最终实现对情形(a)的初始加速度降低和对情形(b)的终端跟踪误差降低。
2.根据权利要求1所述的基于强化学习的空间非合作目标参数自整定追踪方法,其特征在于:所述第一步具体实现如下:
(1)建立追踪星与目标星的相对动力学模型
对于情形(a):
设追踪星质心C相对于追逐航天器P的相对位置、相对速度分别为rre和vre,相对姿态、相对角速度分别为qre和ωre,建立追踪星相对于目标星的相对位置动力学模型;
其中,ωc为追踪星质心C在追踪星本体坐标系下相对于惯性系的角速度,ωt为目标星质心T在目标星本体坐标系下相对于惯性系角速度,pt为追踪星质心C满足对目标星质心T点在目标星本体坐标系下的相对距离,表示从目标本体坐标系到追踪星本体坐标系的转换矩阵,Jt为目标星的转动惯量,f和df分别为目标本体坐标系下的追踪星质心C所受到的控制力和扰动力,τ和dτ分别为目标本体坐标系下追踪星质心C所受到的控制力矩和扰动力矩,m和Jc分别为追踪星的质量和转动惯量,Ω(qc)为姿态矩阵;
对于情形(b):
追逐航天器P需要对非合作逃逸航天器E进行跟踪,建立参考轨道坐标系Oxoyozo,即O系,设偏心率e约等于0,ω*为参考轨道坐标系轨道角速度,得到追踪星相对于目标星的相对位置动力学模型;
其中,{x,y,z}分别表示追逐航天器P,和逃逸航天器E在三个方向上的相对距离,和分别表示追逐航天器和逃逸航天器的机动控制量,TP表示追逐航天器单位质量下的最大推力,TE表示逃逸航天器单位质量下的最大推力;
(2)基于步骤1(1)中的动力学模型设计相应控制律
对于情形(a):
基于步骤1(1)中(a)情况中的动力学模型,引入包括追踪星的质量m、转动惯量Jc和追踪星所受有界干扰力df及有界干扰力矩dτ和目标星的转动惯量Jt在内的5种不确定性,根据李雅普诺夫稳定性原理,设计跟踪失效卫星的自适应控制律;
式中,a=||Jt-1||||Jt||,b=||Jc-1||||Jc||,和分别为对追踪星的质量m与转动惯量Jc的估计值,和分别为对追踪星所受的扰动df和扰动力矩dτ最大值的估计值(df≥||df||,dτ≥||dτ||),和分别表示对a和b的估计值,k1、k2、k3和k4表示待优化的控制参数;
自适应参数更新律如下:
其中,γ1、γ2、γ3、γ4、γ5、γ6表示自适应更新参数;
对于情形(b):
在跟踪带机动的非合作目标时,首先考虑当目标不存在机动能力时,即时,设计目标无机动时的PD控制,再考虑当目标存在机动时,则该PD控制律进行修正,用以保证闭环系统稳定性,对于X通道,设得到X通道的自适应控制律
其中,k1、k2为待优化的控制参数;
同理,得到Y和Z通道的控制律和如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911172906.0/1.html,转载请声明来源钻瓜专利网。