[发明专利]一种空间机器人机械臂的控制方法有效
申请号: | 202110666012.8 | 申请日: | 2021-06-16 |
公开(公告)号: | CN113400307B | 公开(公告)日: | 2022-10-18 |
发明(设计)人: | 张涛;王圣杰;刘磊;张海博;胡海东;周玉新 | 申请(专利权)人: | 清华大学;北京控制工程研究所 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J17/02;B25J18/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 罗文群 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 空间 机器人 机械 控制 方法 | ||
1.一种空间机器人机械臂的控制方法,其特征在于,首先获取空间机器人基座相机采集的图像,设定用于机械臂控制过程中的奖励函数;构建机械臂控制策略网络、状态动作价值网络和状态价值网络,通过向控制策略网络输入图像,输出动作信息控制机械臂,并多次交互积累交互信息对形成经验池;根据最大熵强化学习构建各个网络训练所需的目标函数,利用经验池中的交互信息对使用梯度下降算法对各个网络参数进行训练,得到训练后的机械臂控制策略网络,输入图像信息,输出动作信息控制机械臂,
其中,所述控制方法的具体步骤如下:
(1)根据马尔可夫决策过程建模机械臂的控制,获取空间机器人基座相机采集的图像,并定义t时刻的图像为状态信息st,形式为W*H*3的矩阵,其中3个维度包括了RGB三色的通道,每个维度的图像包换W*H个像素,其中W为图像的宽度,H为图像的高度;将空间机器人关节的角速度at作为动作信息,t代表采样时刻;
(2)设定一个用于机械臂控制过程中的奖励函数rt(st,at),完成马尔可夫决策过程的建模;奖励函数rt(st,at)的表达式如下:
rt(st,at)=-[β1d2+ln(β2d2+∈d)+β3||at-at-1||2]
其中,pe为空间机器人机械臂的末端位置,pt为空间机器人机械臂的目标位置,d为欧式距离,d=||pe-pt||,β1=10-3,β2=1,β3=10-1,∈d的作用是防止ln函数出现奇异,∈d=0.001,上标T为矩阵转置;
(3)构建一个机械臂控制策略网络其中代表机械臂控制策略网络的参数,向机械臂控制策略网络输入图像st,以得到动作信息角速度at,具体包括以下步骤:
(3-1)机械臂控制策略网络的第一层为卷积神经网络,卷积神经网络的卷积核权重W1为一个Gw1*Lw1*Mw1矩阵,其中,Gw1为该卷积核的通道数,Lw1为该卷积核的宽度,Mw1为该卷积核的高度;
(3-2)机械臂控制策略网络的第二层为批次归一化层,批次归一化层将上一层中得到的多层特征层分别做归一化处理,归一化参数的数量与特征层的层数线性正相关;
(3-3)机械臂控制策略网络的第三层为最大值池化层,最大值池化层的滤波器P1为2*2的矩阵;
(3-4)机械臂控制策略网络的第四层为卷积神经网络,卷积神经网络的卷积核权重W2为一个Gw2*Lw2*Mw2矩阵,其中,Gw2为该卷积核的通道数,Lw2为该卷积核的宽度,Mw2为该卷积核的高度;
(3-5)机械臂控制策略网络的第五层为批次归一化层,批次归一化层将上一层中得到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数线性正相关;
(3-6)机械臂控制策略网络的第六层为最大值池化层,最大值池化层的滤波器P2为2*2的矩阵
(3-7)机械臂控制策略网络的第七层为卷积神经网络,卷积神经网络的卷积核权重W3为一个Gw3*Lw3*Mw3矩阵,其中,Gw3为该卷积核的通道数,Lw3为该卷积核的宽度,Mw3为该卷积核的高度;
(3-8)机械臂控制策略网络的第八层为批次归一化层,批次归一化层将上一层中的到的多层特征层分别做归一化的处理,归一化参数的数量和特征层的层数有关;
(3-9)机械臂控制策略网络的第九层为最大值池化层,最大值池化层的滤波器P3为2*2的矩阵;
(3-10)机械臂控制策略网络的第十层为全连接神经网络,输入的神经元个数为上一层输出的特征层展平后的特征数量F9,输出的神经元个数为F10,神经元权重为W10;
(3-11)机械臂控制策略网络的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10,输出的神经元个数为F11,神经元权重为W11;
(3-12)机械臂控制策略网络的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元个数为高斯分布的均值和方差神经元权重为W12;
(3-13)根据步骤(3-1)~(3-12),得到机械臂控制策略网络
(3-14)向步骤(3-13)的机械臂控制策略网络输入步骤(1)采集的RGB三通道图像st,机械臂控制策略网络输出得到高斯分布的均值μt和方差∑t,均值μt和方差∑t组合成空间机器人关节的角速度at的概率分布通过采样得到机械臂关节的角速度at;
(4)根据马尔可夫决策过程原理,构建一个机械臂状态价值网络Vψ,其中ψ代表机械臂状态价值网络的参数,通过输入图像st得到状态价值vt,具体包含以下步骤:
(4-1)重复步骤(3-1)-步骤(3-11),构建机械臂状态价值网络Vψ的第一层到第十一层的网络结构;
(4-2)机械臂状态价值网络Vψ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态的价值函数vt,神经元权重为W12;
(4-3)根据步骤(4-1)-步骤(4-2),得到机械臂状态价值网络Vψ;
(5)根据马尔可夫决策过程原理,构建一个机械臂状态动作价值网络Qθ,其中θ代表机械臂状态动作价值网络的参数,向机械臂状态动作价值网络Qθ输入图像st和关节角速度at,得到状态动作价值qt的映射关系,具体包含以下步骤:
(5-1)重复步骤(3-1)-步骤(3-10),构建机械臂状态动作价值网络Qθ的第一层到第十层的网络结构;
(5-2)机械臂状态动作价值网络Qθ的第十一层为全连接神经网络,输入的神经元个数为上一层输出的F10和空间机器人的关节角速度at合并后的数量,输出的神经元个数为F11,神经元权重为W11;
(5-3)机械臂状态动作价值网络Qθ的第十二层为全连接神经网络,输入的神经元个数为上一层输出的F11,输出的神经元为状态动作价值函数qt,神经元权重为W12;
(5-4)根据步骤(5-1)-步骤(5-3),得到机械臂状态动作价值网络Qθ;
(6)向步骤(3)的机械臂控制策略网络输入步骤(1)采样时刻t采集的图像st,输出为机械臂的关节角速度at,将该关节角速度at输出到一个比例微分控制器C中,比例微分控制器C输出得到关节扭矩,实现对机器人的控制;将采样时刻t采集的图像st和关节跟踪期望的关节角速度at输入到步骤(2)的奖励函数,得到奖励值rt,并且得到t+1时刻的图像st+1,得到t时刻的交互信息对Et=<st,at,rt,st+1>;
(7)遍历T时段内采集的所有图像st=1:T,重复上述步骤(6),得到多组交互信息对,多组交互信息对构成一个经验回放池D,分别向步骤(4)的机械臂状态价值网络Vψ和步骤(5)的机械臂状态动作价值网络Qθ输入不同采样时刻采集的图像st,得到状态价值vψ(st)和状态动作价值qt(st,at);
(8)根据最大熵强化学习,建立优化目标,使策略的累积奖励和熵最大化:
其中,表示信息熵,α表示学习中策略的最大化随机程 度;
(9)采用最小化贝尔曼残差对机械臂状态动作价值网络Qθ的参数进行训练,得到机械臂状态动作价值网络Qθ在最优参数JQ(θ)的表达式:
(10)通过最小化平方损失值,对机械臂状态价值网络Vψ的参数训练,得到机械臂状态价值网络Vψ的最优参数JV(ψ)表达式:
(11)通过最小化期望的相对熵散度,对策略函数进行训练,得到策略函数优化参数表达式:
其中,α表示学习中策略的最大化随机程 度;
(12)以步骤(9)~步骤(11)得到的训练目标,使用梯度下降法,训练步骤(3)~步骤(5)的机械臂控制策略网络状态动作价值网络Qθ和状态价值网络Vψ,完成对网络的训练;
(13)实时采集搭载在空间机器人基座上的相机得到的图像st,将实时采集的图像st输入到步骤(12)的机械臂控制策略网络输出得到采样时刻t下的机械臂关节角速度at,实现对空间机器人机械臂的控制,并实现在T时段内轨迹规划任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;北京控制工程研究所,未经清华大学;北京控制工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110666012.8/1.html,转载请声明来源钻瓜专利网。