[发明专利]一种基于强化学习的水下机器人控制方法及其进行跟踪的控制方法有效
申请号: | 201811342346.4 | 申请日: | 2018-11-13 |
公开(公告)号: | CN109240091B | 公开(公告)日: | 2020-08-11 |
发明(设计)人: | 闫敬;公雅迪;罗小元;杨晛;李鑫 | 申请(专利权)人: | 燕山大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京挺立专利事务所(普通合伙) 11265 | 代理人: | 刘阳 |
地址: | 066004 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 水下 机器人 控制 方法 及其 进行 跟踪 | ||
1.一种基于强化学习的水下机器人控制方法,其特征在于,包括以下步骤:
步骤1、为水下机器人自身位置建立基于机器人自身期望轨迹位置的固定参考系,以及建立基于水下环境不确定因素的惯性参考系;
步骤2、对于惯性参考系,在前后、左右、上下三个方向上构建由基于不确定因素的系统映射机器人输出模型:
式中,ai是水下机器人受到的第i个不确定因素,为系数,每个不确定因素ai都遵循独立的概率密度函数
根据不确定因素各自的概率密度函数,为每个不确定因素定点采样,利用采样点对系统映射机器人输出模型进行训练,构建降阶系统映射机器人输出模型:
式中,是低阶映射中不确定因素的系数;
步骤3、将水下机器人真实位置转化为步骤1的固定参考系中的坐标,并获取步骤2惯性参考系中的机器人降阶系统映射的模型输出;
步骤4、定义水下机器人在不同的状态k下的真实位置为:
p(k)=[x(k),y(k),z(k)]T
定义水下机器人在不同的状态k下的期望轨迹位置为:
pr(k)=[xr(k),yr(k),zr(k)]T
定义水下机器人在不同状态k下的下一步动作的一步代价函数为
gk(p,u)=(x(k)-xr(k))2+(y(k)-yr(k))2+(z(k)-zr(k))2+u2(k)
其中(x-xr)2+(y-yr)2+(z-zr)2代表水下机器人位置误差的代价,u是水下机器人控制器输入,u2代表消耗能量的代价;
根据水下机器人位置移动产生的一步代价函数对机器人进行训练,获得价值函数
V(p(k))=Ea(k){gk(p,u)+γV(p(k+1))}
式中,γ∈(0,1)是折扣因子,Ea(k)表示状态k下的期望函数;
令V=WTΦ(p),使用迭代权重的方法获得控制方法的价值模型:
Wj+1Φ(p(k))=Ea(k)[gk(p,u)+γWjΦ(p(k+1))]
式中,为基向量,W是权重向量;
步骤5、对控制方法的价值模型求解;令h(p)=UTσ(p),其中权重向量U用梯度下降法进行更新,利用最小时的价值函数对控制方法进行改进:
其中h(p)是水下机器人进行位置追踪时每个状态下所进行的下一步动作,将h(p)作为最优控制策略;
步骤6、利用迭代权重的方法对控制方法的价值模型更新和控制策略改进两个过程的同时收敛,完成对当前状态下最优控制策略的求解;
步骤7、将步骤3中真实位置输入到步骤4中,经过步骤5-6操作,获取下一步动作的最优控制策略,并将其作为输出输入到步骤2的系统映射机器人输出模型中,然后循环重复步骤3、7操作,完成水下机器人的追踪任务。
2.根据权利要求1所述的一种基于强化学习的水下机器人控制方法,其特征在于,所述步骤1中的不确定因素为水下的浪涌、摇摆和升沉。
3.根据权利要求1所述的一种基于强化学习的水下机器人控制方法,其特征在于,所述步骤2中的降阶系统映射机器人输出模型的输出均值E'(G'(a1,a2,a3)),与系统映射机器人输出模型的输出均值E(G(a1,a2,a3))相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811342346.4/1.html,转载请声明来源钻瓜专利网。