[发明专利]一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法有效
申请号: | 202010087510.2 | 申请日: | 2020-02-11 |
公开(公告)号: | CN111176122B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 王卓;张佩;秦洪德;孙延超;邓忠超;张宇昂;景锐洁;曹禹 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G05D1/10 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 bp 神经网络 学习 技术 水下 机器人 参数 自适应 控制 方法 | ||
一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法,它属于水下机器人控制器参数调节技术领域。本发明解决了传统Q学习方法进行控制器参数调节时的学习效率低,以及传统反步法进行控制器参数调节时存在的参数不易实时在线调整的问题。本发明利用基于双BP神经网络Q学习算法与反步法相结合的方式实现对反步法控制器参数的自主在线调节,以满足控制参数能够实时在线调整的要求。同时由于引入了双BP神经网络以及经验回放池,其强大的拟合能力使得基于双BP神经网络Q学习参数自适应反步控制方法能够大大降低训练次数,以提升学习效率,在训练较少次数的情况下达到更好的控制效果。本发明可以应用于水下机器人控制器参数的调节。
技术领域
本发明属于水下机器人控制器参数调节技术领域,具体涉及一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法。
背景技术
水下机器人作为海洋资源探测和海底任务执行的重要工具和手段,其运动控制性能的好坏在很大程度上会影响任务完成的效果。目前,一些传统常规控制器以鲁棒性和可扩展性强的特点,在工业环境中得到了广泛的应用,但这些控制器通常不能得到最佳的调优,并不能达到令人满意的性能,在实际应用中,控制器的参数经过人工频繁调试后便固化在控制器中,无法适应被控过程中环境的变化,如何对控制器参数进行实时自主整定,以达到最优控制性能成为一个突出的问题。自适应控制可以通过对对象特征以及输入输出量的在线观测,按照一定的性能指标实现对控制器参数和性能的在线调节,而强化学习可以通过与环境的不断交互,积累经验和知识,在环境动态和底层未知的情况下接收强化信号,以此提高控制器的自适应能力,两者具有相通之处。
然而,传统强化学习的学习机制依赖于Q值表,只能对离散的状态和动作空间进行学习,在进行状态和动作空间划分时势必会导致Q值表过大,使得智能体在学习过程中会因无法遍历所有状态和动作空间而无法收敛,因此传统Q学习的学习效率较低。同时,在利用传统反步法进行控制器参数的调节时,存在着控制器参数不易进行实时在线调整的问题。
发明内容
本发明的目的是为解决传统Q学习方法进行控制器参数调节时的学习效率低,以及传统反步法进行控制器参数调节时存在的参数不易实时在线调整的问题,而提出了一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法。
本发明为解决上述技术问题采取的技术方案是:一种基于双BP神经网络Q学习技术的水下机器人参数自适应反步控制方法,该方法包括以下步骤:
步骤一、基于反步法分别设计水下机器人的速度控制系统和艏向控制系统,再根据设计的速度控制系统以及艏向控制系统确定速度控制系统的控制律以及艏向控制系统的控制律;
水下机器人的速度控制系统为:
其中,m为水下机器人的质量,和Xu|u|均为无量纲水动力参数,u为水下机器人纵向速度,|u|为u的绝对值,为水下机器人纵向加速度,τu为推进器纵向推力,v为水下机器人横向速度,r为水下机器人偏航角速度;
水下机器人速度控制系统的控制律为:
其中,ku为速度控制系统的控制律的待调节控制增益;
水下机器人的艏向控制系统为:
其中,为实际艏向角的一阶导数,为r的一阶导数,Nr、Nr|r|均为无量纲水动力参数,|r|为r的绝对值,τr为转艏力矩,Iz为水下机器人绕运动坐标系z轴的转动惯量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010087510.2/2.html,转载请声明来源钻瓜专利网。