[发明专利]考虑弹跳的小天体表面定点附着轨迹规划方法有效
申请号: | 202011099994.9 | 申请日: | 2020-10-15 |
公开(公告)号: | CN112269390B | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 梁子璇;吕畅;崔平远;朱圣英;徐瑞 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05B13/04 |
代理公司: | 北京正阳理工知识产权代理事务所(普通合伙) 11639 | 代理人: | 张利萍 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 考虑 弹跳 天体 表面 定点 附着 轨迹 规划 方法 | ||
1.考虑弹跳的小天体表面定点附着轨迹规划方法,其特征在于:包括如下步骤,
步骤一、将探测器弹跳至目标位置的过程分为接近段和制动段两个阶段,针对每一阶段探测器碰撞前的姿态和角速度,采用深度确定性策略梯度算法,选取状态空间与动作空间,搭建探测器弹跳运动神经网络模型;
步骤二、针对探测器弹跳的接近段和制动段两个阶段的不同要求,分别设计奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到两个阶段的智能体A1和A2,用于给出两阶段姿态序列;
步骤三、智能体A1和A2基于探测器当前的状态,给出探测器每次碰撞前的姿态信息,在此基础上,设计滑模面,使用滑模控制方法求解控制力矩,使得探测器碰撞前的姿态调整到期望值,从而使探测器实现期望的弹跳轨迹,完成探测器到小天体表面目标点的精确附着;
步骤一的具体实现方法为,
探测器的动力学方程如下:
其中,m为探测器质量,g为小天体重力加速度,(x,y)为探测器位置,I为探测器转动惯量,2l为探测器边长,α为探测器的姿态角,ω为探测器的角速度,Ft为地面对探测器水平方向向作用力,Fn为地面对探测器竖直方向作用力,Tc为探测器控制力矩;
通过对探测器动力学方程的分析可知,探测器跳跃的高度和速度是由发生碰撞时地面给探测器的力决定的;由连续碰撞模型可知,探测器所受的水平方向力Ft和竖直方向力Fn是由碰撞时探测器的姿态角α和角速度ω决定的;因此,使用深度确定性策略梯度(DeepDeterministic Policy Gradient,DDPG)算法时,状态空间s选取为探测器的位置r和速度v,动作空间a选取为探测器碰撞时的姿态角α和角速度ω;在一次跳跃过程中,探测器在空中的位置和速度信息总量是不发生变化的,因此状态空间简化为碰撞前探测器达到的最高点位置信息(xh,yh)和水平速度信息vxh;
s=(xh,yh,vxh) (2)
a=(α,ω) (3)
搭建两组神经网络用于两阶段智能体A1和A2的训练;两组神经网络结构相同,包含Actor网络和Critic网络;
Actor网络用于根据当前状态选取执行的动作,包含两个隐藏层和一个输出层;Critic网络用于根据状态和动作来评估选取的动作,包含两个隐藏层和一个输出层,Actor网络给出的动作在第二个隐藏层处加入Critic网络;
步骤二的具体实现方法为,
步骤2.1针对接近段设计奖赏函数,训练得到智能体A1,用于给出第一阶段姿态序列;
探测器在接近段由初始位置向目标点运动,直到探测器跳跃最高点的水平位置x在目标点xf附近范围[xf-Δx1,xf+Δx1]内,同时水平速度大小降低到[0,v1]内;
接近段探测器由初始位置向目标点运动,到达目标点附近同时将水平速度降低到一定范围,因此结束条件为:在一定跳跃次数内探测器跳跃最高点水平位置达到目标范围,即
|x-xf|≤Δx1 (4)
其中,x为探测器当前跳跃最高点水平位置;
接近段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时对完成任务时的水平速度进行评估,速度越小,给予越大的奖赏,速度过大则给予负值奖赏,接近段结束奖赏值R为
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R1和R2分别为评估位置和速度的大值奖赏;
此外,接近段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器与目标点当前的水平距离相关,距离越远,惩罚越大;每步的奖赏值为
其中,xk为碰撞前探测器最高点位置横坐标,R0为一个较小的正值,p为参数;
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动;运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (7)
其中,xk+1和vx,k+1分别为碰撞后探测器跳跃最高点的位置横坐标和水平速度,q为参数;
速度约束:如果在碰撞后速度过大,超过小天体表面的逃逸速度,则给出一个负值奖赏;
根据接近段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A1;
步骤2.2针对制动段设计奖赏函数,训练得到智能体A2,用于给出第二阶段姿态序列;
探测器在制动段由目标点附近位置开始运动,直到探测器跳跃最高点的水平速度降低到vf,同时水平位置在[xf-Δx2,xf+Δx2]内;
制动段探测器在目标点附近以弹跳方式进行制动,在消除剩余水平速度的同时将探测器的位置控制在一定范围内,因此结束条件为:在一定跳跃次数内探测器跳跃最高点水平速度减小到vf,即
|vx|≤vf (8)
其中,vx探测器当前跳跃最高点水平速度;
制动段结束时,奖赏值设计方法为:完成任务时给予一个大值奖赏,同时要对完成任务时的水平位置进行评估,探测器到目标点水平距离越小,给予越大的奖赏,距离过大则给予负值奖赏,制动段结束奖赏值为:
其中,x和vx分别为完成任务时跳跃最高点的位置横坐标和水平速度,R3和R4分别为评估速度和位置的大值奖赏;
此外,制动段段过程中,考虑以下三个因素赋予奖赏值:
1)弹跳次数:设置每步的过程奖赏为负值,期望智能体通过最少的动作次数完成任务,同时该奖赏值与探测器当前的水平速度相关,速度越大,惩罚越大;每步的奖赏值为
R=-R0-p·|vx,k| (10)
其中,vx,k为探测器当前的水平速度;
2)弹跳运动方向:若当前动作使得下次跳跃最高点的位置横坐标和水平速度的符号相反,则碰撞结果是探测器朝向目标点运动;运动方向奖赏值为
R=-q·sgn(xk+1-xf)·sgn(vx,k+1) (11)
3)高度约束:如果在碰撞后跳跃最高点过高,则给出一个负值奖赏;
根据制动段奖赏函数,选取合适的训练参数进行模型训练和仿真测试,得到智能体A2;
步骤三的具体实现方法为,
在一次跳跃中,智能体由碰撞前最高点的状态可以给出本次碰撞点处探测器的姿态角αp和角速度ωp;从碰撞前最高点到碰撞点过程中,使用二阶滑模控制调整探测器姿态,使其在碰撞点处达到智能体给出的姿态角和角速度;
根据公式(12)计算出碰撞点探测器的质心高度yp:
探测器在空中做自由落体运动,因此可以由最高点高度yh和碰撞点高度yp计算出最高点到碰撞点的时间tp:
定义一阶滑模面s1:
s1=α-αp-ωp(t-tp) (14)
其中,α为当前时刻姿态角;
对s1求一阶偏导得:
其中,ω为当前时刻角速度;
定义二阶滑模面s2:
其中,Λ为参数;
对s2求一阶偏导得:
定义s2的趋近律如下:
其中,k为参数,sat(s)为饱和函数:
由姿态动力学方程可得,碰撞前的控制力矩Tc1为
在碰撞结束后,使用一阶滑模控制,将姿态角稳定在固定值0°,以便于下次碰撞前的姿态控制;定义滑模面s3及其趋近律如下:
s3=α+ω (21)
其中,k1和k2为参数;
由姿态动力学方程可得,碰撞后控制力矩Tc2为
Tc2=I·[k1·s3+k2·sat(s3)-ω] (23)
通过滑模控制使碰撞时探测器姿态调整为智能体给出的姿态值,从而使探测器能按照深度确定性策略梯度DDPG算法规划的方式进行跳跃,实现探测器到小天体表面目标点的精确附着。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011099994.9/1.html,转载请声明来源钻瓜专利网。