[发明专利]一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法有效
申请号: | 202010087510.2 | 申请日: | 2020-02-11 |
公开(公告)号: | CN111176122B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王卓;张佩;秦洪德;孙延超;邓忠超;张宇昂;景锐洁;曹禹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G05D1/10 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bp 神经网络 学习 技术 水下 机器人 参数 自适应 控制 方法 | ||
1.一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法,其特征在于,该方法包括以下步骤:
步骤一、基于反步法分别设计水下机器人的速度控制系统和艏向控制系统,再根据设计的速度控制系统以及艏向控制系统确定速度控制系统的控制律以及艏向控制系统的控制律;
水下机器人的速度控制系统为:
其中,m为水下机器人的质量,和Xu|u|均为无量纲水动力参数,u为水下机器人纵向速度,|u|为u的绝对值,为水下机器人纵向加速度,τu为推进器纵向推力,v为水下机器人横向速度,r为水下机器人偏航角速度;
水下机器人速度控制系统的控制律为:
其中,ku为速度控制系统的控制律的待调节控制增益;ud为水下机器人纵向期望速度;
水下机器人的艏向控制系统为:
其中,为实际艏向角的一阶导数,为r的一阶导数,Nr、Nrr均为无量纲水动力参数,|r|为r的绝对值,τr为转艏力矩,Iz为水下机器人绕运动坐标系z轴的转动惯量;
所述运动坐标系为:以水下机器人的重心为原点O,以指向水下机器人的艏向方向为x轴正向,以指向水下机器人的右舷方向为y轴正向,以指向水下机器人的底部方向为z轴正向,且x轴、y轴、z轴符合右手螺旋定则的坐标系;
水下机器人艏向控制系统的控制律为:
其中,为艏向控制系统的控制律的第一个待调节控制增益,为艏向控制系统的控制律的第二个待调节控制增益;为艏向偏差,z2=α-r为中间偏差,为期望艏向角,为实际艏向角,为中间虚拟控制量;
步骤二、建立由第一当前BP神经网络和第一目标BP神经网络组成的双BP神经网络模型一,其中,第一当前BP神经网络与第一目标BP神经网络的结构相同;
第一当前BP神经网络输入的状态向量为St={s1u,s2u},其中,s1u为t时刻速度的偏差,s2u为t时刻速度的偏差变化率,输出为动作值集合k′u,再利用ε贪婪策略从动作值集合k′u中选择出当前状态向量对应的最优动作值k″u;
第一目标BP神经网络输入的状态向量为:当前状态St执行最优动作at后所得到的下一时刻的状态St+1,第一目标BP神经网络根据输入的状态向量确定输出;
步骤三、第一当前BP神经网络输出的实际Q值为Qm(St,at),第一目标BP神经网络输出的目标Q值为第一当前BP神经网络在当前状态St下选择最优动作at并执行后得到的奖赏值为rt+1(St+1,a),利用Qm(St,at)、和rt+1(St+1,a)来计算TD误差,再利用计算出的TD误差对第一当前BP神经网络的参数进行更新;
每个时刻对应的状态动作样本对均存入经验样本池,在第一当前BP神经网络训练的空闲时间,从经验样本池中随机抽取固定数量的状态动作样本对,利用抽取的状态动作样本对对每经过N个时刻后,第一目标BP神经网络对第一当前BP神经网络的参数进行复制,实现对第一当前BP神经网络和第一目标BP神经网络参数的更新;
步骤四、每个时刻的状态向量依次输入第一当前BP神经网络后,利用步骤二中每个时刻的状态向量对应的最优动作值,计算出在每个时刻速度控制系统的控制律的待调节控制增益ku;
步骤五、建立由第二当前BP神经网络和第二目标BP神经网络组成的双BP神经网络模型二,其中,第二当前BP神经网络与第二目标BP神经网络的结构相同;
第二当前BP神经网络输入的状态向量为其中,为t时刻偏航角的偏差,为t时刻偏航角的偏差变化率,为t时刻水下机器人实时速度,输出为动作值集合和再利用ε贪婪策略从动作值集合和中选择出当前状态向量对应的最优动作值和
第二目标BP神经网络输入的状态向量为:当前状态S′t执行最优动作a′t后所得到的下一时刻的状态S′t+1,第二目标BP神经网络根据输入的状态向量确定输出;
步骤六、第二当前BP神经网络输出的实际Q值为Qm(S′t,a′t),第二目标BP神经网络输出的目标Q值为第二当前BP神经网络在当前状态S′t下选择最优动作a′t并执行后得到的奖赏值为rt+1(S′t+1,a),利用Qm(S′t,a′t)、和rt+1(S′t+1,a)来计算TD误差,再利用计算出的TD误差对第二当前BP神经网络的参数进行更新;
每个时刻对应的状态动作样本对均存入经验样本池,在第二当前BP神经网络训练的空闲时间,从经验样本池中随机抽取固定数量的状态动作样本对,利用抽取的状态动作样本对对第二当前BP神经网络继续进行训练;
且每经过N个时刻后,第二目标BP神经网络对第二当前BP神经网络的参数进行复制,实现对第二当前BP神经网络和第二目标BP神经网络参数的更新;
步骤七、当每个时刻的状态向量依次输入第二当前BP神经网络后,利用步骤五中每个时刻的状态向量对应的最优动作值,计算出在每个时刻艏向控制系统的控制律的待调节控制增益和
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010087510.2/1.html,转载请声明来源钻瓜专利网。