[发明专利]一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法有效
申请号: | 201811342346.4 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109240091B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 闫敬;公雅迪;罗小元;杨晛;李鑫 | 申请(专利权)人: | 燕山大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 刘阳 |
地址: | 066004 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法,属于水下机器人控制领域。本发明中控制中心给出水下机器人的期望轨迹信息,并发送至水下机器人;根据水下机器人模型中不确定参数的概率密度函数,分别对其选取采样点,利用采样点对原始的动力学模型降阶;水下机器人和周围环境进行交互以学习环境信息,在不同状态计算一步代价函数进行价值更新,用最小二乘法求解控制策略对应的价值函数的权重,用梯度下降法进行控制策略改进,循环迭代价值更新和策略改进两个过程直至收敛,从而得到当前位置追踪期望轨迹的最优控制策略;重复以上步骤得到对其余期望轨迹追踪的最优控制策略,最终完成追踪任务。 | ||
搜索关键词: | 一种 基于 强化 学习 水下 机器人 控制 方法 及其 进行 跟踪 | ||
【主权项】:
1.一种基于强化学习的水下机器人控制方法,其特征在于,包括以下步骤:步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系,以及建立基于水下环境不确定因素的惯性参考系;步骤2、对于惯性参考系,在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型:
式中,ai是水下机器人受到的第i个不确定因素,
为系数,每个不确定因素ai都遵循独立的概率密度函数
根据不确定因素各自的概率密度函数,为每个不确定因素定点采样,利用采样点对系统映射机器人输出模型进行训练,构建降阶系统映射机器人输出模型:
式中,
是低阶映射中不确定因素的系数;步骤3、将水下机器人真实位置转化为步骤1的固定参考系中的坐标,并获取步骤2惯性参考系中的机器人降阶系统映射的模型输出;步骤4、定义水下机器人在不同的状态k下的真实位置为:p(k)=[x(k),y(k),z(k)]T定义水下机器人在不同的状态k下的期望轨迹位置为:pr(k)=[xr(k),yr(k),zr(k)]T定义水下机器人在不同状态k下的下一步动作的一步代价函数为gk(p,u)=(x(k)‑xr(k))2+(y(k)‑yr(k))2+(z(k)‑zr(k))2+u2(k)其中(x‑xr)2+(y‑yr)2+(z‑zr)2代表水下机器人位置误差的代价,u是水下机器人控制器输入,u2代表消耗能量的代价;根据水下机器人位置移动产生的一步代价函数对机器人进行训练,获得价值函数V(p(k))=Ea(k){gk(p,u)+γV(p(k+1))}式中,γ∈(0,1)是折扣因子,Ea(k)()表示()内的期望;令V=WTΦ(p),使用迭代权重的方法获得控制方法的价值模型:Wj+1Φ(p(k))=Ea(k)[gk(p,u)+γWjΦ(p(k+1))]式中,
为基向量,W是权重向量;步骤5、对控制方法的价值模型求解;令h(p)=UTσ(p),其中权重向量U用梯度下降法进行更新,利用最小时的价值函数时对控制方法进行改进:
其中h(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;步骤6、利用迭代权重的方法对控制方法的价值模型更新,和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;步骤7、将步骤3中真实位置输入到步骤4中,经过步骤5‑6操作,获取下一步动作的最优控制策略,并将其作为输出输入到步骤2的系统映射机器人输出模型中,然后循环重复步骤3、7操作,完成水下机器人的追踪任务。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811342346.4/,转载请声明来源钻瓜专利网。