[发明专利]一种基于Q学习的Baxter机械臂智能优化控制方法有效

专利信息
申请号: 202110508608.5 申请日: 2021-05-11
公开(公告)号: CN113352320B 公开(公告)日: 2022-06-17
发明(设计)人: 张恒;朱俊威;夏振浩;王波;董子源;杨豫鹏;王琪 申请(专利权)人: 浙江工业大学
主分类号: B25J9/16 分类号: B25J9/16
代理公司: 杭州斯可睿专利事务所有限公司 33241 代理人: 王利强
地址: 310014 浙江省*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 学习 baxter 机械 智能 优化 控制 方法
【权利要求书】:

1.一种基于Q学习的Baxter机械臂智能优化控制方法,其特征在于,所述方法包括以下步骤:

步骤1)建立一个非线性机械臂动力学方程:

其中q,分别表示机械臂角度,角速度,角加速度,向量M(q)表示机械臂惯性矩阵,表示机械臂科氏力矩向量,G(q)表示机械臂重力矩向量,τ(k)表示第k步的机械臂控制力矩向量,表示模型不确定性,u(k)表示第k步的控制策略;

考虑机器人动力学模型已知,定义为便于分析,将式(1)转化成如下状态空间模型:

y(k)=x(k)

(2)

其中

x(k)是第k步的状态,y(k)是第k步的系统输出,

O3×3表示3行3列的零矩阵,I3×3表示3行3列的单位矩阵,n(x1,x2)表示采点个数,-M-1(x1)表示惯性矩阵的逆矩阵;

步骤2)Q-learning算法设计,过程如下:

定义一个基于稳定策略u(0)的Q函数

Qu(0)(x(k),u(k))=c(x(k),u(k))+γVu(x(k+1)) (3)

其中Vu(0)(x(k+1))是第k+1步系统价值函数,

x(k+1)是第k+1步的状态,

c(x(k),u(k))=UTRU+yT(k)Qu(0)(x(k),u(k))y(k)

γ是折扣因子,R和U是系统加权矩阵,一旦可以使用数据识别Qu(0)(x(k),u(k)),那么根据式(4),得到改进的策略u(x(k)):

在LQR情况下,Q函数(3)在稳定策略u(x(k))=f*x(k)下显式表示为式(5)

其中P是黎卡提方程解,Hu是在控制策略u(x(k))下系统内核矩阵,是内核矩阵里面的分块矩阵,基于(4),改进策略u(x(k))的状态反馈增益f由式(6)得:

计算Q-函数和改进策略的过程是交替进行的,那么对于LQR情形,策略保证收敛到最优策略;对改进的策略的u(x(k))评估,其核心是确定Hu

将式(5)代入式(3)中,得到temporal difference误差,

其中表示Kronecker内积操作,vec(·)是一种矢量化操作,从(7)可以看出,通过使用可用数据x(k),u(k)和x(k+1)最小化TD误差来识别H,这是一个线性回归问题,采用随机梯度下降SGD或递推最小二乘LS方法解决所述线性回归问题。

2.如权利要求1所述的一种基于Q学习的Baxter机械臂智能优化控制方法,其特征在于,考虑到一个应用的目标策略u(x(k)),使用递归LS方法来识别相应的Hu,对于某些大常数β和给定初始值递推关系如下所示:

其中,i和j表示循环次数,I是单位矩阵,表示第j次的内核矩阵,表示第j+1次的内核矩阵,表示第i次下的第j次的矩阵,表示第i次下的第j+1次的矩阵;

选择目标策略加上白噪声之和作为行为策略u(x(k)),由于H是具有(n+k)(n+k+1)/2个未知参数的对称矩阵,因此可以用至少(n+k)(n+k+1)/2个数据集来识别它。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110508608.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top