[发明专利]一种空间机器人机械臂的控制方法有效

申请号：	202110666012.8	申请日：	2021-06-16
公开（公告）号：	CN113400307B	公开（公告）日：	2022-10-18
发明（设计）人：	张涛;王圣杰;刘磊;张海博;胡海东;周玉新	申请（专利权）人：	清华大学;北京控制工程研究所
主分类号：	B25J9/16	分类号：	B25J9/16;B25J17/02;B25J18/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	罗文群
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种空间机器人机械控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种空间机器人机械臂的控制方法，其特征在于，首先获取空间机器人基座相机采集的图像，设定用于机械臂控制过程中的奖励函数；构建机械臂控制策略网络、状态动作价值网络和状态价值网络，通过向控制策略网络输入图像，输出动作信息控制机械臂，并多次交互积累交互信息对形成经验池；根据最大熵强化学习构建各个网络训练所需的目标函数，利用经验池中的交互信息对使用梯度下降算法对各个网络参数进行训练，得到训练后的机械臂控制策略网络，输入图像信息，输出动作信息控制机械臂，

其中，所述控制方法的具体步骤如下：

(1)根据马尔可夫决策过程建模机械臂的控制，获取空间机器人基座相机采集的图像，并定义t时刻的图像为状态信息s_t，形式为W*H*3的矩阵，其中3个维度包括了RGB三色的通道，每个维度的图像包换W*H个像素，其中W为图像的宽度，H为图像的高度；将空间机器人关节的角速度a_t作为动作信息，t代表采样时刻；

(2)设定一个用于机械臂控制过程中的奖励函数r_t(s_t，a_t)，完成马尔可夫决策过程的建模；奖励函数r_t(s_t，a_t)的表达式如下：

r_t(s_t，a_t)＝-[β₁d²+ln(β₂d²+∈_d)+β₃||a_t-a_t-1||²]

其中，p_e为空间机器人机械臂的末端位置，p_t为空间机器人机械臂的目标位置，d为欧式距离，d＝||p_e-p_t||，β₁＝10^-3，β₂＝1，β₃＝10^-1，∈_d的作用是防止ln函数出现奇异，∈_d＝0.001，上标T为矩阵转置；

(3)构建一个机械臂控制策略网络其中代表机械臂控制策略网络的参数，向机械臂控制策略网络输入图像s_t，以得到动作信息角速度a_t，具体包括以下步骤：

(3-1)机械臂控制策略网络的第一层为卷积神经网络，卷积神经网络的卷积核权重W₁为一个G_w1*L_w1*M_w1矩阵，其中，G_w1为该卷积核的通道数，L_w1为该卷积核的宽度，M_w1为该卷积核的高度；

(3-2)机械臂控制策略网络的第二层为批次归一化层，批次归一化层将上一层中得到的多层特征层分别做归一化处理，归一化参数的数量与特征层的层数线性正相关；

(3-3)机械臂控制策略网络的第三层为最大值池化层，最大值池化层的滤波器P₁为2*2的矩阵；

(3-4)机械臂控制策略网络的第四层为卷积神经网络，卷积神经网络的卷积核权重W₂为一个G_w2*L_w2*M_w2矩阵，其中，G_w2为该卷积核的通道数，L_w2为该卷积核的宽度，M_w2为该卷积核的高度；

(3-5)机械臂控制策略网络的第五层为批次归一化层，批次归一化层将上一层中得到的多层特征层分别做归一化的处理，归一化参数的数量和特征层的层数线性正相关；

(3-6)机械臂控制策略网络的第六层为最大值池化层，最大值池化层的滤波器P₂为2*2的矩阵

(3-7)机械臂控制策略网络的第七层为卷积神经网络，卷积神经网络的卷积核权重W₃为一个G_w3*L_w3*M_w3矩阵，其中，G_w3为该卷积核的通道数，L_w3为该卷积核的宽度，M_w3为该卷积核的高度；

(3-8)机械臂控制策略网络的第八层为批次归一化层，批次归一化层将上一层中的到的多层特征层分别做归一化的处理，归一化参数的数量和特征层的层数有关；

(3-9)机械臂控制策略网络的第九层为最大值池化层，最大值池化层的滤波器P₃为2*2的矩阵；

(3-10)机械臂控制策略网络的第十层为全连接神经网络，输入的神经元个数为上一层输出的特征层展平后的特征数量F₉，输出的神经元个数为F₁₀，神经元权重为W₁₀；

(3-11)机械臂控制策略网络的第十一层为全连接神经网络，输入的神经元个数为上一层输出的F₁₀，输出的神经元个数为F₁₁，神经元权重为W₁₁；

(3-12)机械臂控制策略网络的第十二层为全连接神经网络，输入的神经元个数为上一层输出的F₁₁，输出的神经元个数为高斯分布的均值和方差神经元权重为W₁₂；

(3-13)根据步骤(3-1)～(3-12)，得到机械臂控制策略网络

(3-14)向步骤(3-13)的机械臂控制策略网络输入步骤(1)采集的RGB三通道图像s_t，机械臂控制策略网络输出得到高斯分布的均值μ_t和方差∑_t，均值μ_t和方差∑_t组合成空间机器人关节的角速度a_t的概率分布通过采样得到机械臂关节的角速度a_t；

(4)根据马尔可夫决策过程原理，构建一个机械臂状态价值网络V_ψ，其中ψ代表机械臂状态价值网络的参数，通过输入图像s_t得到状态价值v_t，具体包含以下步骤：

(4-1)重复步骤(3-1)-步骤(3-11)，构建机械臂状态价值网络V_ψ的第一层到第十一层的网络结构；

(4-2)机械臂状态价值网络V_ψ的第十二层为全连接神经网络，输入的神经元个数为上一层输出的F₁₁，输出的神经元为状态的价值函数v_t，神经元权重为W₁₂；

(4-3)根据步骤(4-1)-步骤(4-2)，得到机械臂状态价值网络V_ψ；

(5)根据马尔可夫决策过程原理，构建一个机械臂状态动作价值网络Q_θ，其中θ代表机械臂状态动作价值网络的参数，向机械臂状态动作价值网络Q_θ输入图像s_t和关节角速度a_t，得到状态动作价值q_t的映射关系，具体包含以下步骤：

(5-1)重复步骤(3-1)-步骤(3-10)，构建机械臂状态动作价值网络Q_θ的第一层到第十层的网络结构；

(5-2)机械臂状态动作价值网络Q_θ的第十一层为全连接神经网络，输入的神经元个数为上一层输出的F₁₀和空间机器人的关节角速度a_t合并后的数量，输出的神经元个数为F₁₁，神经元权重为W₁₁；

(5-3)机械臂状态动作价值网络Q_θ的第十二层为全连接神经网络，输入的神经元个数为上一层输出的F₁₁，输出的神经元为状态动作价值函数q_t，神经元权重为W₁₂；

(5-4)根据步骤(5-1)-步骤(5-3)，得到机械臂状态动作价值网络Q_θ；

(6)向步骤(3)的机械臂控制策略网络输入步骤(1)采样时刻t采集的图像s_t，输出为机械臂的关节角速度a_t，将该关节角速度a_t输出到一个比例微分控制器C中，比例微分控制器C输出得到关节扭矩，实现对机器人的控制；将采样时刻t采集的图像s_t和关节跟踪期望的关节角速度a_t输入到步骤(2)的奖励函数，得到奖励值r_t，并且得到t+1时刻的图像s_t+1，得到t时刻的交互信息对E_t＝＜s_t，a_t，r_t，s_t+1＞；

(7)遍历T时段内采集的所有图像s_t＝1：T，重复上述步骤(6)，得到多组交互信息对，多组交互信息对构成一个经验回放池D，分别向步骤(4)的机械臂状态价值网络V_ψ和步骤(5)的机械臂状态动作价值网络Q_θ输入不同采样时刻采集的图像s_t，得到状态价值v_ψ(s_t)和状态动作价值q_t(s_t，a_t)；

(8)根据最大熵强化学习，建立优化目标，使策略的累积奖励和熵最大化：

其中，表示信息熵，α表示学习中策略的最大化随机程度；

(9)采用最小化贝尔曼残差对机械臂状态动作价值网络Q_θ的参数进行训练，得到机械臂状态动作价值网络Q_θ在最优参数J_Q(θ)的表达式：

(10)通过最小化平方损失值，对机械臂状态价值网络V_ψ的参数训练，得到机械臂状态价值网络V_ψ的最优参数J_V(ψ)表达式：

(11)通过最小化期望的相对熵散度，对策略函数进行训练，得到策略函数优化参数表达式：

其中，α表示学习中策略的最大化随机程度；

(12)以步骤(9)～步骤(11)得到的训练目标，使用梯度下降法，训练步骤(3)～步骤(5)的机械臂控制策略网络状态动作价值网络Q_θ和状态价值网络V_ψ，完成对网络的训练；

(13)实时采集搭载在空间机器人基座上的相机得到的图像s_t，将实时采集的图像s_t输入到步骤(12)的机械臂控制策略网络输出得到采样时刻t下的机械臂关节角速度a_t，实现对空间机器人机械臂的控制，并实现在T时段内轨迹规划任务。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学;北京控制工程研究所，未经清华大学;北京控制工程研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110666012.8/1.html，转载请声明来源钻瓜专利网。