[发明专利]一种基于Q学习的Baxter机械臂智能优化控制方法有效

申请号：	202110508608.5	申请日：	2021-05-11
公开（公告）号：	CN113352320B	公开（公告）日：	2022-06-17
发明（设计）人：	张恒;朱俊威;夏振浩;王波;董子源;杨豫鹏;王琪	申请（专利权）人：	浙江工业大学
主分类号：	B25J9/16	分类号：	B25J9/16
代理公司：	杭州斯可睿专利事务所有限公司 33241	代理人：	王利强
地址：	310014 浙江省***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于学习 baxter 机械智能优化控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Q学习的Baxter机械臂智能优化控制方法，其特征在于，所述方法包括以下步骤：

步骤1)建立一个非线性机械臂动力学方程：

其中q,分别表示机械臂角度，角速度，角加速度，向量M(q)表示机械臂惯性矩阵，表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量，τ(k)表示第k步的机械臂控制力矩向量，表示模型不确定性,u(k)表示第k步的控制策略；

考虑机器人动力学模型已知，定义为便于分析，将式(1)转化成如下状态空间模型：

y(k)＝x(k)

(2)

其中

x(k)是第k步的状态，y(k)是第k步的系统输出，

O_3×3表示3行3列的零矩阵，I_3×3表示3行3列的单位矩阵，n(x₁,x₂)表示采点个数，-M^-1(x₁)表示惯性矩阵的逆矩阵；

步骤2)Q-learning算法设计，过程如下:

定义一个基于稳定策略u(0)的Q函数

Q^u(0)(x(k),u(k))＝c(x(k),u(k))+γV^u(x(k+1)) (3)

其中V^u(0)(x(k+1))是第k+1步系统价值函数，

x(k+1)是第k+1步的状态，

c(x(k),u(k))＝U^TRU+y^T(k)Q^u(0)(x(k),u(k))y(k)

γ是折扣因子,R和U是系统加权矩阵，一旦可以使用数据识别Q^u(0)(x(k),u(k))，那么根据式(4)，得到改进的策略u(x(k))：

在LQR情况下，Q函数(3)在稳定策略u(x(k))＝f*x(k)下显式表示为式(5)

其中P是黎卡提方程解，H^u是在控制策略u(x(k))下系统内核矩阵，是内核矩阵里面的分块矩阵,基于(4)，改进策略u(x(k))的状态反馈增益f由式(6)得：

计算Q-函数和改进策略的过程是交替进行的，那么对于LQR情形，策略保证收敛到最优策略；对改进的策略的u(x(k))评估，其核心是确定H^u；

将式(5)代入式(3)中，得到temporal difference误差，

其中表示Kronecker内积操作，vec(·)是一种矢量化操作，从(7)可以看出，通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H，这是一个线性回归问题，采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。

2.如权利要求1所述的一种基于Q学习的Baxter机械臂智能优化控制方法，其特征在于，考虑到一个应用的目标策略u(x(k))，使用递归LS方法来识别相应的H^u，对于某些大常数β和给定初始值递推关系如下所示：

其中，i和j表示循环次数，I是单位矩阵，表示第j次的内核矩阵，表示第j+1次的内核矩阵，表示第i次下的第j次的矩阵，表示第i次下的第j+1次的矩阵；

选择目标策略加上白噪声之和作为行为策略u(x(k))，由于H是具有(n+k)(n+k+1)/2个未知参数的对称矩阵，因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江工业大学，未经浙江工业大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110508608.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载