[发明专利]智能水下机器人垂直面路径跟随的深度强化学习控制方法有效

申请号：	201910514354.0	申请日：	2019-06-14
公开（公告）号：	CN110209152B	公开（公告）日：	2022-04-05
发明（设计）人：	李晔;白德乾;姜言清;安力;武皓微	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05D1/00	分类号：	G05D1/00;G05D1/12;G06N7/00;G06N20/00
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	智能水下机器人垂直面路径跟随深度强化学习控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供的是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；步骤二，建立代理人集合；步骤三，建立经验缓存池；步骤四，建立学习者；步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本发明针对智能水下机器人所处海洋环境复杂多变，传统控制方法无法与环境主动进行交互的现象，设计智能水下机器人垂直面路径跟随的深度强化学习控制方法。使用确定性策略梯度通过分布式的方法来完成智能水下机器人的路径跟随控制任务，具有自学习，精度高，适应性好，学习过程稳定的优点。

技术领域

本发明涉及的是一种水下航行器控制方法，具体地说是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。

背景技术

随着海洋开发的不断深入，智能水下机器人由于其具有运动灵活、携带方便、可自主作业等特点已被广泛应用于海洋环境保护、海洋资源开发，其地位日益重要。此外通过准确控制智能水下机器人，使得一些极其危险的任务变得安全，例如探索海底石油，修复海底管道，以及追踪和记录易爆物的位置。

传统的路径跟随控制方法诸如模糊逻辑控制、PID控制、S面控制需要人为的调整控制参数，控制效果依赖于人的经验，智能水下机器人不能主动的与环境进行交互。近年来，随着人工智能技术的快速发展，作为人工智能的重要内容之一，强化学习近年来取得了一系列的重大突破。在强化学习中，学习者不会被告知要采取哪些行动，而是必须通过尝试来发现哪些行动会产生最大的回报。行动不仅可以影响直接奖励，还可以影响下一个时刻的状态，并通过这种状态影响所有后续的奖励。

发明内容

本发明的目的在于提供一种具有自学习、精度高的特点，可以适应各种复杂海洋环境的智能水下机器人垂直面路径跟随的深度强化学习控制方法。

本发明的目的是这样实现的：

步骤一，根据智能水下机器人的路径跟随控制要求，建立与代理人进行交互的智能水下机器人环境；

步骤二，建立代理人集合；

步骤三，建立经验缓存池；

步骤四，建立学习者；

步骤五，使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。

本发明还可以包括：

1.所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一个马尔可夫决策过程，确定马尔可夫决策过程的主要组成部分：动作空间、状态空间、观测空间、奖励函数。

2.所述确定马尔可夫决策过程的主要组成部分具体包括：

(1)确定动作空间