[发明专利]一种基于深度强化学习和导航向量场的卫星规避拦截方法在审
申请号: | 202211231304.X | 申请日: | 2022-10-09 |
公开(公告)号: | CN115659788A | 公开(公告)日: | 2023-01-31 |
发明(设计)人: | 王宏伦;张云飞;张梦华;刘一恒;李克行;吴健发 | 申请(专利权)人: | 北京航空航天大学;北京控制工程研究所 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06F17/11;G06F17/16;G06N3/092;G06F113/08 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 易卜 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 导航 向量 卫星 规避 拦截 方法 | ||
1.一种基于深度强化学习和导航向量场的卫星规避拦截方法,其特征在于,具体包括如下步骤:
首先,建立目标卫星的轨道坐标系OeXTYTZT和轨道椭圆方程;并根据轨道椭圆方程设计Lyapunov函数,计算轨道坐标系的期望速度矢量vd作为Lyapunov导航向量场;
轨道坐标系的期望速度矢量如下式:
式中v0为期望的速度大小;Ad为目标卫星到椭圆轨道的距离Vd的梯度方向偏导值,即往轨道上收敛的垂向方向;Bd为与方向Ad垂直的切向方向偏导值;kd为调整偏导值Ad与Bd之间比例的系数;
然后,针对空间中存在的K个拦截卫星,利用扰动流体动态系统算法根据目标卫星与拦截卫星的相对位置关系计算扰动矩阵;
所有拦截卫星的扰动矩阵为:
ωk(P)表示第k个拦截卫星的扰动加权因子;Mk(P)表示第k个拦截卫星的扰动矩阵;
接着,根据拦截卫星的扰动矩阵修正初始的Lyapunov导航向量场,获得轨道坐标系下的期望速度
修正公式为:
最后,设计卫星规避拦截的深度强化学习模型;将深度强化学习模型中的参数输入近端策略梯度算法中,用于训练策略网络;目标卫星通过训练好的策略网络达到期望位置,完成对拦截卫星的规避;
所述深度强化学习模型包括以下:
1)动作建模:
将扰动矩阵中反应系数ρk和切向方向系数θk作为强化学习的动作输出:
a=[ρk θk]
2)状态建模:
将目标卫星和拦截卫星在轨道坐标系下的位置、速度以及卫星的质量作为强化学习状态输入:
x=[rG rM vG vM mG]
式中rG是目标卫星的位置;rM是拦截卫星的位置;vG是目标卫星的速度;vM是拦截卫星的速度;mG是目标卫星的质量;
3)奖励建模:
奖励函数:
其中,ro(P)是对目标卫星离开预定轨道的弱激励项:
Kro为可调正系数;和为轨道坐标系下目标卫星的三轴坐标;a为轨道半长轴,c=ae,e为偏心率;
表示有效避免卫星拦截的弱激励项:
式中为可调正系数,表示卫星到拦截卫星的等效凸多面体表面的距离,εΓ为较小正数;
表示拦截碰撞的强奖励项:
式中为可调正系数;
rt(P,v)表示规避拦截后目标卫星入轨强奖励项:
式中为正系数,εp和εv分别是对目标卫星入轨时位置和速度的精度要求,v为目标卫星的速度,vT为预定轨道下期望速度。
2.根据权利要求1所述的方法,其特征在于,所述轨道坐标系OeXTYTZT以地球中心为原点,YT指向轨道的近地点,XT位于轨道平面内,垂直于YT轴并指向目标卫星的运行方向,ZT轴与OeXTYT平面形成右手直角坐标系;
轨道椭圆方程如下:
3.根据权利要求1所述的方法,其特征在于,所述Lyapunov函数为:
当Vd=0时,收敛于轨道。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;北京控制工程研究所,未经北京航空航天大学;北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211231304.X/1.html,转载请声明来源钻瓜专利网。