[发明专利]基于强化学习技术的自主水下机器人无模型控制方法有效
申请号: | 202010087508.5 | 申请日: | 2020-02-11 |
公开(公告)号: | CN111240344B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 孙延超;秦洪德;张佩;王卓;曹禹;景锐洁;张宇昂;杜雨桐 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 时起磊 |
地址: | 150001 黑龙江*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 技术 自主 水下 机器人 模型 控制 方法 | ||
一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法,属于机器人控制技术领域。为了解决现有的依赖于控制对象模型的水下机器人控制方法存在适用性有限的问题和控制精度不高的问题,以及不依赖控制对象模型的水下机器人控制方法存在训练量大的问题。本发明的控制器,将当前时刻和下一时刻的偏差和偏差变化率分别作为当前BP神经网络和目标BP神经网络的连续输入,当前BP神经网络的输出为实际Q值,目标神经网络的输出为期望Q值,另外将纵向推力和偏航力矩也作为神经网络的输出,从而当状态值平缓变化时,其动作输出为连续值;基于BP神经网络和Q学习的控制器实现水下机器人的控制。主要用于水下机器人的控制。
技术领域
本发明涉及水下机器人的控制方法,属于机器人控制技术领域。
背景技术
水下机器人在海洋科学、生物学、考古学等众多学科领域具有革命性的应用,作为探索海洋的重要技术手段,水下机器人的研究和发展引起了社会的广泛关注。海洋环境复杂多变,充满危险与未知,如何在诸多不可预测因素作用下对水下机器人进行有效控制是一个亟需解决的问题。
随着机器学习的不断发展,科研人员希望赋予机器以学习能力,真正意义上实现智能化。将强化学习方法引入水下机器人智能控制系统,可以使控制系统具备自学习能力,能够在不断与环境交互的过程中累积经验,在以后遇到同样或者类似情况下自主作出最优决策,以此提高控制系统对环境的适应能力。
然而,基于传统强化学习控制器的学习机制依赖于Q值表,在其学习过程中,需要对状态空间和动作空间进行等值划分,划分得越细致,其学习效果越好,但训练次数会因此爆炸式增加,从而导致控制器因无法遍历每个状态空间和动作空间而无法收敛,同时由于训练次数的增加,导致学习速度慢,在实际投入工程实践有较大的局限。另外,传统基于Q值表的强化学习方法,其输出是离散的动作值,然而在实际的机器人控制中,控制器的状态和动作往往是连续的,连续的输入和输出才能使得基于强化学习的控制器更好地替代传统常规的控制器,所以现有的控制方法的效果有待于进一步提高。
发明内容
本发明是为了解决现有的依赖于控制对象模型的水下机器人控制方法存在适用性有限的问题和控制精度不高的问题,以及不依赖控制对象模型的水下机器人控制方法存在训练量大的问题。
一种基于双神经网络强化学习技术的自主水下机器人无模型控制方法,利用基于双BP神经网络强化学习的控制器对自主水下机器人进行控制,所述控制器包括基于双BP神经网络Q学习速度控制器;
所述速度控制器包含一个当前BP神经网络和一个目标BP神经网络,利用Q学习算法,实现当前BP神经网络和目标BP神经网络对应的整体控制器的学习;
速度控制器和艏向控制器中的当前BP神经网络中均包含一个状态BP神经网络和一个动作BP神经网络;
当前BP神经网络中的状态BP神经网络的输入为速度的偏差和偏差变化率,经过Q学习算法,输出为k个纵向推力所对应的Q值,所以状态BP神经网络也称Q值网络;
当前BP神经网络中的动作BP神经网络的输入为速度的偏差和偏差变化率,经过Q学习算法,输出为k个纵向推力所对应的动作值;
目标BP神经网络包含一个状态BP神经网络,目标BP神经网络的状态BP神经网络与当前BP神经网络中的状态BP神经网络结构相同,目标BP神经网络的状态BP神经网络输入为当前状态st执行最优动作at后所得到的下一时刻的状态st+1,并且目标BP神经网络的状态BP神经网络参数总是为当前BP神经网络状态BP神经网络前10步所更新的神经网络参数;
速度控制器以Q学习的方式进行更新,从而实现自主水下机器人的速度控制。
进一步地,所述的控制器还包括基于双BP神经网络Q学习艏向控制器;
艏向控制器与速度控制器的结构相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010087508.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种绿色环保型城市景观设计方法
- 下一篇:一种尼龙齿轮的加工工艺