[发明专利]基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法在审

申请号：	201810532467.9	申请日：	2018-05-29
公开（公告）号：	CN108572654A	公开（公告）日：	2018-09-25
发明（设计）人：	万磊;陈国防;李岳明;张子洋;唐文镇;张靖宇;金巧园	申请（专利权）人：	哈尔滨工程大学
主分类号：	G05D1/06	分类号：	G05D1/06
代理公司：	暂无信息	代理人：	暂无信息
地址：	150001 黑龙江省哈尔滨市南岗区***	国省代码：	黑龙江;23
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法，属于无人水下机器人运动控制技术领域。包括：输入控制命令并初始化各变量；建立Q学习迭代方程，输入各变量；判断Q迭代的收敛性，是则策略选择动作，否则以虚拟锚泊控制输出组成动作；动作作用于AUV，得到所需参数，更新Q值和Q表；进行状态交换，判断AUV是否达到目标状态，在满足次数后，结束系统，否则继续迭代。虚拟锚泊控制部分：建立欠驱动AUV的动力学方程；建立欠驱动AUV的运动学方程；根据受力分析建立虚拟锚泊的数学模型；将锚链力进行分解，分配给AUV的执行器。本发明将虚拟锚泊控制的输出作为Q学习的指导，加快Q学习的收敛过程，为AUV在干扰的镇定控制问题提供了便利。
搜索关键词：	虚拟欠驱动AUV 迭代三维无人水下机器人运动控制技术动力学方程运动学方程策略选择迭代方程动作作用目标状态收敛过程受力分析输入控制数学模型问题提供状态交换输出初始化锚链力收敛性分解便利分配更新
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法，其特征在于：包括如下步骤：(1)：初始化各变量，设定输入状态变量、奖罚值R和输出动作A，建立Q表，输入控制命令；(2)：建立Q学习迭代方程，输入各变量，例如初始状态S；(3)：判断Q迭代的收敛性，是则选择ε‑greedy策略选择动作A，否则以虚拟锚泊控制输出组成动作A；(4)：将所选择动作A作用于AUV载体(也就是AUV的执行器输出X、N、M)，得到奖罚值R和下一时刻的状态S′，更新Q值和Q表；(5)：进行状态交换，判断AUV是否达到目标且保持镇定状态，是则退出迭代循环，在满足espisode次数后，结束系统，否则继续迭代；其中对Q值的更新具体表现为：判断迭代方程的收敛性，是则选择根据ε‑greedy策略选择Q(S,A)值最大的动作值A(如果在该状态下Q值全为零，则随机选择动作A)，否则利用虚拟锚泊控制来产生X、N、M，并以此组成动作A，以该动作来选择Q(S,A)值；AUV执行该动作A，到了S状态所相对的下一时刻的状态S′，并将评价该动作A的好坏，给定奖罚值R(S,A,S′)；将S′在Q表中查找值的最大数并选择动作A′，将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值，对Q(S,A)进行计算，并在Q表中所对应的S、A的Q值进行更新。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学，未经哈尔滨工程大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810532467.9/，转载请声明来源钻瓜专利网。

上一篇：一种AGV超声波导引系统及AGV导航车
下一篇：飞行控制方法及相关装置

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法在审

专利文献下载