[发明专利]基于深度强化学习的水下机器人轨迹控制方法及控制系统有效

申请号：	201710479333.0	申请日：	2017-06-22
公开（公告）号：	CN107102644B	公开（公告）日：	2019-12-10
发明（设计）人：	马琼雄;余润笙;石振宇;黄晁星;李腾龙;张庆茂	申请（专利权）人：	华南师范大学
主分类号：	G05D1/06	分类号：	G05D1/06;G05B13/04
代理公司：	44245 广州市华学知识产权代理有限公司	代理人：	郑浦娟;谢静娜
地址：	510631 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习水下机器人轨迹控制方法控制系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度强化学习的水下机器人轨迹控制方法及控制系统，包括学习阶段和应用阶段；在学习阶段，通过仿真器模拟水下机器人的运作过程，采集仿真器所模拟的正在运作的水下机器人的数据，包括各时刻的状态和各时刻对应下一时刻的目标状态，通过这些数据针对决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络四个神经网络进行学习；在应用阶段，获取到水下机器人当前时刻的状态以及下一时刻的目标状态，然后输入至学习阶段最终学习得到的决策神经网络中，通过决策神经网络计算出水下机器人当前时刻需要的推进力。本发明可以实现水下机器人运动轨迹的精确控制。

技术领域

本发明涉及水下机器人控制技术，特别涉及一种基于深度强化学习的水下机器人轨迹控制方法及控制系统。

背景技术

近年来，水下机器人在海洋探索和海洋环境保护等多个海洋科学领域得到了广泛的应用，其地位日益重要.通过对水下机器人运动轨迹的精准控制，人们可以安全地完成一些危险系数较高的任务，例如勘探海底石油和修理海底管道等.目前水下机器人在指定轨迹上完成任务仍普遍存在着手动操作的方式，手动操作对需要人投入大量的精力，劳动强度大，尤其当水流变化或者是外界干扰时，仅靠人工操作不仅操作复杂并且难以保证水下机器人的轨迹精度。实现水下机器人运动轨迹精准的自主控制将大大节省人力物力，然而，由于水下环境极其复杂，水下机器人的运动极易受到水流、流体阻力的影响，同时水下机器人的自动控制问题具有极强的非线性性质，导致水下机器人动力学模型构建难度较大，在各种水域中缺乏普适性.许多传统的控制方式诸如PID，模糊算法，滑模算法都曾被应用于水下机器人控制领域.虽然传统的控制方法可以使得水下机器人在执行轨迹跟踪任务时达到一定的精度，但仍不能满足水下作业对高精确性的要求，而且参数的整定较为繁琐。因此，本发明的目的在于提供一种通过仿真模型数据或者是根据人工操作数据进行学习，从而能够实现减少参数整定且能实现高精度轨迹控制的方法，提高水下机器人控制性能和作业效率。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种基于深度强化学习的水下机器人轨迹控制方法，通过该控制方法可以实现水下机器人运动轨迹的精确控制，避免由于水下机器人高维连续的行为空间和非线性性质导致的轨迹跟踪精度低的控制问题。

本发明的第二目的在于提供一种用于实现上述方法的基于深度强化学习的水下机器人轨迹控制器系统。

本发明的第三目的在于提供一种基于深度强化学习的水下机器人轨迹控制方法，通过该控制方法可以实现水下机器人运动轨迹的更加精确控制，避免由于水下机器人高维连续的行为空间和非线性性质导致的轨迹跟踪精度低的控制问题。

本发明的第四目的在于提供一种用于实现第三目方法的基于深度强化学习的水下机器人轨迹控制系统。

本发明的第一目的通过下述技术方案实现：一种基于深度强化学习的水下机器人轨迹控制方法，包括学习阶段和应用阶段；在所述学习阶段，通过仿真器模拟水下机器人的运作过程，并且采集仿真器所模拟的正在运作的水下机器人的数据，根据这些数据针对决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络进行学习；具体步骤如下：

S1、首先建立四个神经网络，分别作为决策神经网络、辅助决策神经网络、评价神经网络和辅助评价神经网络，并且针对四个神经网络的神经网络参数进行初始化；其中神经网络的参数指的是神经网络中各层神经元的连接权重；同时建立一个经验数据缓冲区，并进行初始化；然后针对上述初始化后的四个神经网络，从初始时刻开始，进入步骤S2开始学习；

S2、实时采集仿真器所模拟的正在运作的水下机器人在当前时刻的状态；然后根据当前时刻的状态和下一时刻的目标状态，利用当前决策神经网络计算当前时刻需要的推进力；在获取到当前时刻需要的推进力后，将当前时刻需要的推进力实施至仿真器所模拟的正在运作的水下机器人上；然后采用水下机器人的动力学模型计算出水下机器人下一时刻的状态；并且根据当前时刻需要的推进力、下一时刻的状态以及下一时刻的目标状态计算出的当前时刻的奖励信号值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华南师范大学，未经华南师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710479333.0/2.html，转载请声明来源钻瓜专利网。

上一篇：一种大型智能割草机器人p-d型路径规划方法
下一篇：一种利用气体绝缘的中压开关柜

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度强化学习的水下机器人轨迹控制方法及控制系统有效

专利文献下载