[发明专利]一种基于Q学习的Baxter机械臂智能优化控制方法有效
申请号: | 202110508608.5 | 申请日: | 2021-05-11 |
公开(公告)号: | CN113352320B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 张恒;朱俊威;夏振浩;王波;董子源;杨豫鹏;王琪 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | B25J9/16 | 分类号: | B25J9/16 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 baxter 机械 智能 优化 控制 方法 | ||
1.一种基于Q学习的Baxter机械臂智能优化控制方法,其特征在于,所述方法包括以下步骤:
步骤1)建立一个非线性机械臂动力学方程:
其中q,分别表示机械臂角度,角速度,角加速度,向量M(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量,τ(k)表示第k步的机械臂控制力矩向量,表示模型不确定性,u(k)表示第k步的控制策略;
考虑机器人动力学模型已知,定义为便于分析,将式(1)转化成如下状态空间模型:
y(k)=x(k)
(2)
其中
x(k)是第k步的状态,y(k)是第k步的系统输出,
O3×3表示3行3列的零矩阵,I3×3表示3行3列的单位矩阵,n(x1,x2)表示采点个数,-M-1(x1)表示惯性矩阵的逆矩阵;
步骤2)Q-learning算法设计,过程如下:
定义一个基于稳定策略u(0)的Q函数
Qu(0)(x(k),u(k))=c(x(k),u(k))+γVu(x(k+1)) (3)
其中Vu(0)(x(k+1))是第k+1步系统价值函数,
x(k+1)是第k+1步的状态,
c(x(k),u(k))=UTRU+yT(k)Qu(0)(x(k),u(k))y(k)
γ是折扣因子,R和U是系统加权矩阵,一旦可以使用数据识别Qu(0)(x(k),u(k)),那么根据式(4),得到改进的策略u(x(k)):
在LQR情况下,Q函数(3)在稳定策略u(x(k))=f*x(k)下显式表示为式(5)
其中P是黎卡提方程解,Hu是在控制策略u(x(k))下系统内核矩阵,是内核矩阵里面的分块矩阵,基于(4),改进策略u(x(k))的状态反馈增益f由式(6)得:
计算Q-函数和改进策略的过程是交替进行的,那么对于LQR情形,策略保证收敛到最优策略;对改进的策略的u(x(k))评估,其核心是确定Hu;
将式(5)代入式(3)中,得到temporal difference误差,
其中表示Kronecker内积操作,vec(·)是一种矢量化操作,从(7)可以看出,通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H,这是一个线性回归问题,采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。
2.如权利要求1所述的一种基于Q学习的Baxter机械臂智能优化控制方法,其特征在于,考虑到一个应用的目标策略u(x(k)),使用递归LS方法来识别相应的Hu,对于某些大常数β和给定初始值递推关系如下所示:
其中,i和j表示循环次数,I是单位矩阵,表示第j次的内核矩阵,表示第j+1次的内核矩阵,表示第i次下的第j次的矩阵,表示第i次下的第j+1次的矩阵;
选择目标策略加上白噪声之和作为行为策略u(x(k)),由于H是具有(n+k)(n+k+1)/2个未知参数的对称矩阵,因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110508608.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种电梯对重框架组装结构
- 下一篇:高速切叠一体机