[发明专利]基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法在审
申请号: | 201810532467.9 | 申请日: | 2018-05-29 |
公开(公告)号: | CN108572654A | 公开(公告)日: | 2018-09-25 |
发明(设计)人: | 万磊;陈国防;李岳明;张子洋;唐文镇;张靖宇;金巧园 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G05D1/06 | 分类号: | G05D1/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法,属于无人水下机器人运动控制技术领域。包括:输入控制命令并初始化各变量;建立Q学习迭代方程,输入各变量;判断Q迭代的收敛性,是则策略选择动作,否则以虚拟锚泊控制输出组成动作;动作作用于AUV,得到所需参数,更新Q值和Q表;进行状态交换,判断AUV是否达到目标状态,在满足次数后,结束系统,否则继续迭代。虚拟锚泊控制部分:建立欠驱动AUV的动力学方程;建立欠驱动AUV的运动学方程;根据受力分析建立虚拟锚泊的数学模型;将锚链力进行分解,分配给AUV的执行器。本发明将虚拟锚泊控制的输出作为Q学习的指导,加快Q学习的收敛过程,为AUV在干扰的镇定控制问题提供了便利。 | ||
搜索关键词: | 虚拟 欠驱动AUV 迭代 三维 无人水下机器人 运动控制技术 动力学方程 运动学方程 策略选择 迭代方程 动作作用 目标状态 收敛过程 受力分析 输入控制 数学模型 问题提供 状态交换 输出 初始化 锚链力 收敛性 分解 便利 分配 更新 | ||
【主权项】:
1.基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法,其特征在于:包括如下步骤:(1):初始化各变量,设定输入状态变量、奖罚值R和输出动作A,建立Q表,输入控制命令;(2):建立Q学习迭代方程,输入各变量,例如初始状态S;(3):判断Q迭代的收敛性,是则选择ε‑greedy策略选择动作A,否则以虚拟锚泊控制输出组成动作A;(4):将所选择动作A作用于AUV载体(也就是AUV的执行器输出X、N、M),得到奖罚值R和下一时刻的状态S′,更新Q值和Q表;(5):进行状态交换,判断AUV是否达到目标且保持镇定状态,是则退出迭代循环,在满足espisode次数后,结束系统,否则继续迭代;其中对Q值的更新具体表现为:判断迭代方程的收敛性,是则选择根据ε‑greedy策略选择Q(S,A)值最大的动作值A(如果在该状态下Q值全为零,则随机选择动作A),否则利用虚拟锚泊控制来产生X、N、M,并以此组成动作A,以该动作来选择Q(S,A)值;AUV执行该动作A,到了S状态所相对的下一时刻的状态S′,并将评价该动作A的好坏,给定奖罚值R(S,A,S′);将S′在Q表中查找值的最大数并选择动作A′,将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值,对Q(S,A)进行计算,并在Q表中所对应的S、A的Q值进行更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810532467.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种AGV超声波导引系统及AGV导航车
- 下一篇:飞行控制方法及相关装置