[发明专利]基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法在审

专利信息
申请号: 201810532467.9 申请日: 2018-05-29
公开(公告)号: CN108572654A 公开(公告)日: 2018-09-25
发明(设计)人: 万磊;陈国防;李岳明;张子洋;唐文镇;张靖宇;金巧园 申请(专利权)人: 哈尔滨工程大学
主分类号: G05D1/06 分类号: G05D1/06
代理公司: 暂无信息 代理人: 暂无信息
地址: 150001 黑龙江省哈尔滨市南岗区*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法,属于无人水下机器人运动控制技术领域。包括:输入控制命令并初始化各变量;建立Q学习迭代方程,输入各变量;判断Q迭代的收敛性,是则策略选择动作,否则以虚拟锚泊控制输出组成动作;动作作用于AUV,得到所需参数,更新Q值和Q表;进行状态交换,判断AUV是否达到目标状态,在满足次数后,结束系统,否则继续迭代。虚拟锚泊控制部分:建立欠驱动AUV的动力学方程;建立欠驱动AUV的运动学方程;根据受力分析建立虚拟锚泊的数学模型;将锚链力进行分解,分配给AUV的执行器。本发明将虚拟锚泊控制的输出作为Q学习的指导,加快Q学习的收敛过程,为AUV在干扰的镇定控制问题提供了便利。
搜索关键词: 虚拟 欠驱动AUV 迭代 三维 无人水下机器人 运动控制技术 动力学方程 运动学方程 策略选择 迭代方程 动作作用 目标状态 收敛过程 受力分析 输入控制 数学模型 问题提供 状态交换 输出 初始化 锚链力 收敛性 分解 便利 分配 更新
【主权项】:
1.基于Q学习的欠驱动AUV虚拟锚泊三维镇定控制及实现方法,其特征在于:包括如下步骤:(1):初始化各变量,设定输入状态变量、奖罚值R和输出动作A,建立Q表,输入控制命令;(2):建立Q学习迭代方程,输入各变量,例如初始状态S;(3):判断Q迭代的收敛性,是则选择ε‑greedy策略选择动作A,否则以虚拟锚泊控制输出组成动作A;(4):将所选择动作A作用于AUV载体(也就是AUV的执行器输出X、N、M),得到奖罚值R和下一时刻的状态S′,更新Q值和Q表;(5):进行状态交换,判断AUV是否达到目标且保持镇定状态,是则退出迭代循环,在满足espisode次数后,结束系统,否则继续迭代;其中对Q值的更新具体表现为:判断迭代方程的收敛性,是则选择根据ε‑greedy策略选择Q(S,A)值最大的动作值A(如果在该状态下Q值全为零,则随机选择动作A),否则利用虚拟锚泊控制来产生X、N、M,并以此组成动作A,以该动作来选择Q(S,A)值;AUV执行该动作A,到了S状态所相对的下一时刻的状态S′,并将评价该动作A的好坏,给定奖罚值R(S,A,S′);将S′在Q表中查找值的最大数并选择动作A′,将Q(S,A)、R(S,A,S′)和代入迭代公式中计算S状态下的Q值,对Q(S,A)进行计算,并在Q表中所对应的S、A的Q值进行更新。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810532467.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top