[发明专利]智能水下机器人垂直面路径跟随的深度强化学习控制方法有效
申请号: | 201910514354.0 | 申请日: | 2019-06-14 |
公开(公告)号: | CN110209152B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 李晔;白德乾;姜言清;安力;武皓微 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05D1/00 | 分类号: | G05D1/00;G05D1/12;G06N7/00;G06N20/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 水下 机器人 垂直面 路径 跟随 深度 强化 学习 控制 方法 | ||
本发明提供的是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;步骤二,建立代理人集合;步骤三,建立经验缓存池;步骤四,建立学习者;步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。本发明针对智能水下机器人所处海洋环境复杂多变,传统控制方法无法与环境主动进行交互的现象,设计智能水下机器人垂直面路径跟随的深度强化学习控制方法。使用确定性策略梯度通过分布式的方法来完成智能水下机器人的路径跟随控制任务,具有自学习,精度高,适应性好,学习过程稳定的优点。
技术领域
本发明涉及的是一种水下航行器控制方法,具体地说是一种智能水下机器人垂直面路径跟随的深度强化学习控制方法。
背景技术
随着海洋开发的不断深入,智能水下机器人由于其具有运动灵活、携带方便、可自主作业等特点已被广泛应用于海洋环境保护、海洋资源开发,其地位日益重要。此外通过准确控制智能水下机器人,使得一些极其危险的任务变得安全,例如探索海底石油,修复海底管道,以及追踪和记录易爆物的位置。
传统的路径跟随控制方法诸如模糊逻辑控制、PID控制、S面控制需要人为的调整控制参数,控制效果依赖于人的经验,智能水下机器人不能主动的与环境进行交互。近年来,随着人工智能技术的快速发展,作为人工智能的重要内容之一,强化学习近年来取得了一系列的重大突破。在强化学习中,学习者不会被告知要采取哪些行动,而是必须通过尝试来发现哪些行动会产生最大的回报。行动不仅可以影响直接奖励,还可以影响下一个时刻的状态,并通过这种状态影响所有后续的奖励。
发明内容
本发明的目的在于提供一种具有自学习、精度高的特点,可以适应各种复杂海洋环境的智能水下机器人垂直面路径跟随的深度强化学习控制方法。
本发明的目的是这样实现的:
步骤一,根据智能水下机器人的路径跟随控制要求,建立与代理人进行交互的智能水下机器人环境;
步骤二,建立代理人集合;
步骤三,建立经验缓存池;
步骤四,建立学习者;
步骤五,使用分布式确定性策略梯度进行智能水下机器人路径跟随控制。
本发明还可以包括:
1.所述建立与代理人进行交互的智能水下机器人环境是将智能水下机器人的路径跟随控制过程建模成一个马尔可夫决策过程,确定马尔可夫决策过程的主要组成部分:动作空间、状态空间、观测空间、奖励函数。
2.所述确定马尔可夫决策过程的主要组成部分具体包括:
(1)确定动作空间
动作空间表达式为F=[delS],其中delS表示智能水下机器人水平舵的舵角;
(2)确定状态空间
状态空间表达式为S=[w,q,z,theta],其中w表示智能水下机器人在随体坐标系下的升沉速度,q表示智能水下机器人在随体坐标系下的俯仰角速度,z表示智能水下机器人在大地坐标系下的深度,theta表示智能水下机器人在大地坐标系下的俯仰角;
(3)确定观测空间
观测空间是状态空间的函数:O=f(S),其中跟随直线路径为:O=[w,q,zdelta,cos(theta),sin(theta)],zdelta=z-zr,zr表示直线路径所在的深度;
(4)确定奖励函数
在强化学习中,代理的目的或目标是根据特殊信号形成的,称为奖励或奖励函数,从环境传递给代理人,用于评价智能水下机器人在前一时刻采取动作后导致产生的当前状态的效果:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910514354.0/2.html,转载请声明来源钻瓜专利网。