[发明专利]一种针对时变动力学的自主水下航行器轨迹跟踪控制方法在审

专利信息
申请号: 202110618917.8 申请日: 2021-06-03
公开(公告)号: CN113359448A 公开(公告)日: 2021-09-07
发明(设计)人: 宋士吉;江鹏 申请(专利权)人: 清华大学
主分类号: G05B13/04 分类号: G05B13/04
代理公司: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 廖元秋
地址: 100084*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 针对 变动 力学 自主 水下 航行 轨迹 跟踪 控制 方法
【权利要求书】:

1.一种针对时变动力学的自主水下航行器轨迹跟踪控制方法,其特征在于,该方法包括以下步骤:

1)建立时变动力学环境下水下自主航行器AUV轨迹跟踪控制问题;具体步骤如下:

1-1)确定AUV系统输入向量;

令AUV系统第k时间步的输入向量为τk=[τukrk]T,其中,下标k表示第k时间步,τuk、τrk分别为AUV系统第k时间步的螺旋桨推力和力矩;τuk、τrk的取值范围分别为[-uM,uM]和[-rM,rM],uM、rM分别为最大的螺旋桨推力和最大力矩;

1-2)确定AUV系统输出向量和状态向量;

令AUV系统第k时间步的输出向量为ηk=[xk,ykk]T,其中xk、yk分别为第k时间步AUV系统在惯性坐标系I-XYZ下沿X、Y轴的坐标,ψk为第k时间步AUV系统前进方向与X轴的夹角;该输出向量的一阶导数为νk=[uk,vk,rk]T,该一阶导数为AUV系统第k时间步的状态向量;其中uk,vk分别代表平面上第k时间步AUV系统前进方向的速度分量与垂直前进方向的速度分量,rk代表ψk方向的角速度;

1-3)确定时变动力学AUV系统方程,表达式如下:

ηk+1=ηk+TsJ(νk),

νk+1=νk+TsM(ω)-1F(νk,ω),

F(νk,ω)=G(νk,ω)τk-C(νk,ω)νk-D(νk,ω)νk,

该方程包括输入向量τk、输出向量ηk、状态向量νk、时变系数向量ω;其中时变系数向量ω包括AUV系统质量系数m,鳍升力系数Yuuδ,鳍力矩系数Nuuδ

M,C,D,G,J分别代表考虑时变向量ω的带附加质量的系统惯性矩阵、水动力学阻尼矩阵、科里奥利力矩阵、输入矩阵和转换矩阵;

1-4)确定轨迹跟踪控制误差;

AUV系统第k时间步的参考轨迹点记为其中分别代表第k时间步参考轨迹点的X轴坐标和Y轴坐标,则AUV系统的参考轨迹为τd=[d1,d2…,dK],K代表最大时间步;

则第k时间步的AUV系统轨迹跟踪控制误差为:

1-5)建立AUV系统轨迹跟踪控制目标;

建立时变动力学环境下的AUV系统轨迹跟踪控制的目标为在当前时变动力学AUV系统下找到一个最优系统输入序列τ*使得k=0的初始时刻的目标函数P0(τ)最小,计算表达式如下:

其中,

其中,γ是折扣因子,H为权重矩阵;

2)建立AUV轨迹跟踪问题的马尔科夫决策过程模型;具体步骤如下:

2-1)批量马尔科夫决策过程划分;

随机采样一组时变系数向量ωi,i=1,2,…,n,根据该时变系数向量划分对应的n组马尔科夫决策过程,将每组马尔科夫决策过程对应的任务记为Ti,i=1,2,…,n,n代表采样的时变向量组数即任务数;

2-2)定义状态向量;

针对每组马尔科夫决策过程,令AUV在第k时间步与第k+1时间步的参考轨迹点分别为与则第k时间步的AUV对应参考轨迹点沿X、Y轴的坐标误差分别为第k时间步的AUV距离第k+1时间步的参考轨迹点的前瞻距离前视偏转角度为

建立每组马尔科夫决策过程中第k时间步的状态向量如下:

sk=[dfk,cos(ψdk),sin(ψdk),δxkyk,cos(ψk),sin(ψk),uk,vk,rk]

2-3)定义动作向量;

针对每组马尔科夫决策过程,定义第k时间步的动作向量为该时间步的AUV系统输入向量,即ak=τk

2-4)定义回报函数;

针对每组马尔科夫决策过程,确定第k时间步AUV系统与下一时间步参考轨迹点的坐标误差:

则第k时间步的回报函数为:

其中,α12分别为权重系数;

2-5)将步骤1-5)建立的AUV系统轨迹跟踪控制目标转换为强化学习框架下的AUV轨迹跟踪控制目标;

在任务T下,定义策略π为在任一状态下AUV选择各个可能动作的概率,则定义第k时间步的状态动作值函数如下:

其中,表示对奖励函数、状态和动作的期望值;

则在时变动力学场景下,AUV系统轨迹跟踪控制目标是得到最优目标策略使得在任务分布ρ(T)下的所有任务期望状态动作值最大,计算表达式如下:

其中,p(s0)为初始状态s0的分布;a0为初始动作向量;

3)元强化学习框架下的AUV轨迹跟踪控制方法;具体步骤如下:

3-1)建立元强化学习的优化目标函数,表达式如下:

其中

其中τ~PT(τ|θ)代表轨迹τ由策略πθ在任务T的分布PT(τ|θ)采样得到;R(τ,θ)为在参数θ下,采样轨迹为τ的累计回报的神经网络拟合函数;令R(τ,θ)为优势函数其中为在任务T下执行策略π,状态动作对(s0,a0)的状态动作值函数,为s0的状态值函数;θ′代表在任务T下进行一步内部更新得到的策略参数;

3-2)建立策略离散程度度量指标:

其中,Nu代表每个任务内部最大更新步数,代表第k步外部更新时的初始策略,代表策略在任务Ti做j步内部更新得到的策略,DKL代表KL散度度量;

则更新后的元强化学习的优化目标函数为:

3-3)构建基于注意力机制的策略网络;

该网络的输入信息为包括当前第k时间步状态向量sk及之前M个时间步的状态向量sk-M,sk-M+1…,sk-1,输出信息为当前第k时间步的动作向量ak;该网络包括依次连接的输入处理层、中间隐层和输出层;其中输入处理层包括注意力机制层与状态输入层,所述状态输入层将输入的sk转化为输入隐层信息Ik,注意力机制层将前M个时间步状态向量提取为第k时间步的历史信息Hk;中间隐层的输入为[sk,Ik,Hk],输出为动作向量ak,即为输出层输出向量;

4)求解AUV轨迹跟踪控制的目标策略,具体步骤如下:

4-1)参数设置;

分别设置外部最大迭代次数L、内部最大更新步数Nu、AUV任务分布ρ(T)、任务数n、外部更新学习速率α,内部更新速率β、折扣因子γ、批量数据大小B、AUV运行跟踪最大时间步K、奖励函数系数α12、权重矩阵H;

4-2)初始化策略网络参数θ,得到对应的初始策略网络为πθ

4-3)外部迭代开始,对策略网络进行训练,初始化迭代次数episode=1;

4-4)生成参考轨迹τd

4-5)从任务分布ρ(T)随机采样批量任务Ti,i=1,2,…,n,随机生成一组时变系数向量ωi,i=1,2,…,n;

4-6)任务迭代开始,对每个任务Ti,初始化迭代任务序号i=1;

4-7)选择任务Ti对应的时变系数向量ωi,设定参数θi=θ,初始化内部更新步数j=0;

4-8)初始化马尔科夫决策过程初始状态s0

4-9)利用网络使AUV与外界环境交互,当前策略网络输入为历史状态向量sk-M,sk-M+1…,sk-1与当前时间步状态向量sk;交互获取任务Ti采样轨迹数据τi={s0,a0,r0,…,sT+1},计算第j步内部更新目标函数为R(τii)与策略离散程度度量指标对策略网络参数做一步更新:

4-10)令j=j+1并对j进行判定:如jNu,则重新返回步骤4-9),继续更新策略网络参数;否则,将更新后的策略网络记为进入步骤4-11);

4-11)利用更新后的策略网络继续交互获取任务Ti采样轨迹数据,直到AUV系统跟踪轨迹长度为K,获得最终的轨迹数据τ′i

4-12)令i=i+1并对i进行判定:如in,则重新返回步骤4-7),AUV开始对任务Ti进行内部更新;否则,进入步骤4-13);

4-13)利用各轨迹数据τ′i,i=1,2,…,n计算元强化学习的目标函数:

基于目标函数进行策略参数的外部更新:

4-14)令episode=episode+1并对episode进行判定:如episodeL,则重新返回步骤4-4;否则,进入步骤4-15);

4-15)迭代结束,终止策略网络的训练过程,得到训练完毕的策略网络参数记为确定最终的策略网络将AUV系统当前时间步的状态向量与前M步的状态向量输入到策略网络中,该网络输出相应的控制向量控制AUV系统完成时变动力学环境下的轨迹跟踪任务。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110618917.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top