[发明专利]一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法有效

申请号：	202010087510.2	申请日：	2020-02-11
公开（公告）号：	CN111176122B	公开（公告）日：	2022-05-13
发明（设计）人：	王卓;张佩;秦洪德;孙延超;邓忠超;张宇昂;景锐洁;曹禹	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05B13/04	分类号：	G05B13/04;G05D1/10
代理公司：	哈尔滨市松花江专利商标事务所 23109	代理人：	时起磊
地址：	150001 黑龙江***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 bp 神经网络学习技术水下机器人参数自适应控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法，其特征在于，该方法包括以下步骤：

步骤一、基于反步法分别设计水下机器人的速度控制系统和艏向控制系统，再根据设计的速度控制系统以及艏向控制系统确定速度控制系统的控制律以及艏向控制系统的控制律；

水下机器人的速度控制系统为：

其中，m为水下机器人的质量，和X_u|u|均为无量纲水动力参数，u为水下机器人纵向速度，|u|为u的绝对值，为水下机器人纵向加速度，τ_u为推进器纵向推力，v为水下机器人横向速度，r为水下机器人偏航角速度；

水下机器人速度控制系统的控制律为：

其中，k_u为速度控制系统的控制律的待调节控制增益；u_d为水下机器人纵向期望速度；

水下机器人的艏向控制系统为：

其中，为实际艏向角的一阶导数，为r的一阶导数，N_r、N_rr均为无量纲水动力参数，|r|为r的绝对值，τ_r为转艏力矩，I_z为水下机器人绕运动坐标系z轴的转动惯量；

所述运动坐标系为：以水下机器人的重心为原点O，以指向水下机器人的艏向方向为x轴正向，以指向水下机器人的右舷方向为y轴正向，以指向水下机器人的底部方向为z轴正向，且x轴、y轴、z轴符合右手螺旋定则的坐标系；

水下机器人艏向控制系统的控制律为：

其中，为艏向控制系统的控制律的第一个待调节控制增益，为艏向控制系统的控制律的第二个待调节控制增益；为艏向偏差，z₂＝α-r为中间偏差，为期望艏向角，为实际艏向角，为中间虚拟控制量；

步骤二、建立由第一当前BP神经网络和第一目标BP神经网络组成的双BP神经网络模型一，其中，第一当前BP神经网络与第一目标BP神经网络的结构相同；

第一当前BP神经网络输入的状态向量为S_t＝{s_1u,s_2u}，其中，s_1u为t时刻速度的偏差，s_2u为t时刻速度的偏差变化率，输出为动作值集合k′_u，再利用ε贪婪策略从动作值集合k′_u中选择出当前状态向量对应的最优动作值k″_u；

第一目标BP神经网络输入的状态向量为：当前状态S_t执行最优动作a_t后所得到的下一时刻的状态S_t+1，第一目标BP神经网络根据输入的状态向量确定输出；

步骤三、第一当前BP神经网络输出的实际Q值为Q_m(S_t,a_t)，第一目标BP神经网络输出的目标Q值为第一当前BP神经网络在当前状态S_t下选择最优动作a_t并执行后得到的奖赏值为r_t+1(S_t+1,a)，利用Q_m(S_t,a_t)、和r_t+1(S_t+1,a)来计算TD误差，再利用计算出的TD误差对第一当前BP神经网络的参数进行更新；

每个时刻对应的状态动作样本对均存入经验样本池，在第一当前BP神经网络训练的空闲时间，从经验样本池中随机抽取固定数量的状态动作样本对，利用抽取的状态动作样本对对每经过N个时刻后，第一目标BP神经网络对第一当前BP神经网络的参数进行复制，实现对第一当前BP神经网络和第一目标BP神经网络参数的更新；

步骤四、每个时刻的状态向量依次输入第一当前BP神经网络后，利用步骤二中每个时刻的状态向量对应的最优动作值，计算出在每个时刻速度控制系统的控制律的待调节控制增益k_u；

步骤五、建立由第二当前BP神经网络和第二目标BP神经网络组成的双BP神经网络模型二，其中，第二当前BP神经网络与第二目标BP神经网络的结构相同；

第二当前BP神经网络输入的状态向量为其中，为t时刻偏航角的偏差，为t时刻偏航角的偏差变化率，为t时刻水下机器人实时速度，输出为动作值集合和再利用ε贪婪策略从动作值集合和中选择出当前状态向量对应的最优动作值和

第二目标BP神经网络输入的状态向量为：当前状态S′_t执行最优动作a′_t后所得到的下一时刻的状态S′_t+1，第二目标BP神经网络根据输入的状态向量确定输出；

步骤六、第二当前BP神经网络输出的实际Q值为Q_m(S′_t,a′_t)，第二目标BP神经网络输出的目标Q值为第二当前BP神经网络在当前状态S′_t下选择最优动作a′_t并执行后得到的奖赏值为r_t+1(S′_t+1,a)，利用Q_m(S′_t,a′_t)、和r_t+1(S′_t+1,a)来计算TD误差，再利用计算出的TD误差对第二当前BP神经网络的参数进行更新；

每个时刻对应的状态动作样本对均存入经验样本池，在第二当前BP神经网络训练的空闲时间，从经验样本池中随机抽取固定数量的状态动作样本对，利用抽取的状态动作样本对对第二当前BP神经网络继续进行训练；

且每经过N个时刻后，第二目标BP神经网络对第二当前BP神经网络的参数进行复制，实现对第二当前BP神经网络和第二目标BP神经网络参数的更新；

步骤七、当每个时刻的状态向量依次输入第二当前BP神经网络后，利用步骤五中每个时刻的状态向量对应的最优动作值，计算出在每个时刻艏向控制系统的控制律的待调节控制增益和

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010087510.2/1.html，转载请声明来源钻瓜专利网。

上一篇：一种净化模块及其煤矿井下水净化系统
下一篇：一种多功能安防卷闸门、安防系统及安防方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法有效

专利文献下载