[发明专利]一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法有效

申请号：	201811342346.4	申请日：	2018-11-13
公开（公告）号：	CN109240091B	公开（公告）日：	2020-08-11
发明（设计）人：	闫敬;公雅迪;罗小元;杨晛;李鑫	申请（专利权）人：	燕山大学
主分类号：	G05B13/04	分类号：	G05B13/04
代理公司：	北京挺立专利事务所(普通合伙) 11265	代理人：	刘阳
地址：	066004 河北省***	国省代码：	河北;13
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法，属于水下机器人控制领域。本发明中控制中心给出水下机器人的期望轨迹信息，并发送至水下机器人；根据水下机器人模型中不确定参数的概率密度函数，分别对其选取采样点，利用采样点对原始的动力学模型降阶；水下机器人和周围环境进行交互以学习环境信息，在不同状态计算一步代价函数进行价值更新，用最小二乘法求解控制策略对应的价值函数的权重，用梯度下降法进行控制策略改进，循环迭代价值更新和策略改进两个过程直至收敛，从而得到当前位置追踪期望轨迹的最优控制策略；重复以上步骤得到对其余期望轨迹追踪的最优控制策略，最终完成追踪任务。
搜索关键词：	一种基于强化学习水下机器人控制方法及其进行跟踪
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于强化学习的水下机器人控制方法，其特征在于，包括以下步骤：步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系，以及建立基于水下环境不确定因素的惯性参考系；步骤2、对于惯性参考系，在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型：式中，a_i是水下机器人受到的第i个不确定因素，为系数，每个不确定因素a_i都遵循独立的概率密度函数根据不确定因素各自的概率密度函数，为每个不确定因素定点采样，利用采样点对系统映射机器人输出模型进行训练，构建降阶系统映射机器人输出模型：式中，是低阶映射中不确定因素的系数；步骤3、将水下机器人真实位置转化为步骤1的固定参考系中的坐标，并获取步骤2惯性参考系中的机器人降阶系统映射的模型输出；步骤4、定义水下机器人在不同的状态k下的真实位置为：p(k)＝[x(k),y(k),z(k)]T定义水下机器人在不同的状态k下的期望轨迹位置为：pr(k)＝[xr(k),yr(k),zr(k)]T定义水下机器人在不同状态k下的下一步动作的一步代价函数为gk(p,u)＝(x(k)‑xr(k))2+(y(k)‑yr(k))2+(z(k)‑zr(k))2+u2(k)其中(x‑xr)2+(y‑yr)2+(z‑zr)2代表水下机器人位置误差的代价，u是水下机器人控制器输入，u2代表消耗能量的代价；根据水下机器人位置移动产生的一步代价函数对机器人进行训练，获得价值函数V(p(k))＝Ea(k){gk(p,u)+γV(p(k+1))}式中，γ∈(0,1)是折扣因子，Ea(k)()表示()内的期望；令V＝WTΦ(p)，使用迭代权重的方法获得控制方法的价值模型：Wj+1Φ(p(k))＝Ea(k)[gk(p,u)+γWjΦ(p(k+1))]式中，为基向量，W是权重向量；步骤5、对控制方法的价值模型求解；令h(p)＝UTσ(p)，其中权重向量U用梯度下降法进行更新，利用最小时的价值函数时对控制方法进行改进：其中h(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作，将h(p)作为最优控制策略；步骤6、利用迭代权重的方法对控制方法的价值模型更新，和控制策略改进两个过程的同时收敛，完成对当前状态下最优控制策略的求解；步骤7、将步骤3中真实位置输入到步骤4中，经过步骤5‑6操作，获取下一步动作的最优控制策略，并将其作为输出输入到步骤2的系统映射机器人输出模型中，然后循环重复步骤3、7操作，完成水下机器人的追踪任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于燕山大学，未经燕山大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201811342346.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法有效

专利文献下载