[发明专利]一种利用环境预测优化非模型机器人多轴孔装配控制方法有效

申请号：	201910287227.1	申请日：	2019-04-11
公开（公告）号：	CN110238839B	公开（公告）日：	2020-10-20
发明（设计）人：	徐静;侯志民;乔红;陈恳;吴丹	申请（专利权）人：	清华大学;中国科学院自动化研究所
主分类号：	B25J9/16	分类号：	B25J9/16;B23P19/00
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	廖元秋
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法，属于机器人装配技术领域。本发明利用通用动作值函数进行环境相关知识预测，并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入，输出用于优化非模型控制算法的参数，当深度强化学习网络迭代次数上限且装配符合要求时，输出训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。本发明可实现对已有非模型机器人控制算法的优化，缩短了机器人多轴孔装配所需的时间。
搜索关键词：	一种利用环境预测优化模型机器人多轴孔装配控制方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种利用环境预测优化非模型机器人多轴孔装配控制方法，其特征在于，包括以下步骤：1)将六维力传感器安装在机器人的末端执行器上，将双孔零件固定在实验台上，在待装配双轴零件上定义轴三维坐标系X‑Y‑Z，轴三维坐标系X‑Y‑Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点，Z轴正向为沿双轴零件的的轴线向下，X轴正向是沿双轴的右轴的圆心指向左轴的圆心，由右手螺旋定则得到Y轴正向；在双孔零件上定义孔坐标系X'‑Y'‑Z'，孔坐标系X'‑Y'‑Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点，Z'轴的正向沿双孔的轴线方向向上，X'轴正向与X轴的正向相同，根据右手螺旋定则Y'与Y轴正向相反；2)利用机器人控制器读取装配过程中的六维力传感器的数据，并给定装配过程中双轴零件的装配运动轨迹策略π，将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量o_t，将六维力传感器的观测值做为当前时刻t的环境的反馈值c_t，γ用来表示每次装配结束的状态，将对环境的相关预测表示为：Q(o_t,π,c_t,γ)3)将对于环境的相关预测利用参数w表示成状态o_t的线性函数或者非线性神经网络，并且利用时间差分算法利用在装配过程中收集的数据(o_t,π,c_t,γ)不断的迭代学习参数w：δ_t＝c_t+γ·Q(o_t+1|w_t+1,π,γ)‑Q(o_t|w_t,π,γ)其中，α代表的是每一次的学习步长，δ_t代表时间差分算法计中t时刻的误差；4)创建初始为空的经验数据集，设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据；5)在连续动作控制的深度确定性梯度算法DDPG算法中，利用策略值函数Q^μ(s_t,a_t|θ^Q)＝E[R_t|s_t,a_t]，计算得到机器人装配过程中，在t时刻采取装配动作a_t时的预期评估值Q^μ(s_t,a_t|θ^Q)；其中，s_t代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt,x_t,y_t,z_t,α_t,β_t,γ_t]，12维状态向量中的[F_xt,F_yt,F_zt,M_xt,M_yt,M_zt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值，x_t,y_t,z_t代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态，α_t,β_t,γ_t代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角，a_t代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[P_x,P_y,P_z,R_x,R_y,R_z]的修正量，R_t为时刻t所获得的经折扣后的未来收益之和，其中i为完成一次装配任务过程中的第i次装配动作，γ为折扣因子，γ∈[0,1]，r_t(s_t,a_t)为时刻t获得的奖励函数，T为一次装配任务的结束时刻；6)定义一个奖励函数其中h_t是t时刻待装配双轴零件的双轴在双孔零件中的插入深度，F(t)是t时刻获得的待装配双轴零件的受力状态，c是设定的计算系数用于控制F(t)对r_t(s_t,a_t)的影响程度，取值为0.01，h_T为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度，h_max是双轴零件的双轴在双孔零件中的要求插入深度，h₀是装配初始时双轴零件的双轴在双孔零件中的初始插入深度，h_T＜h_max代表装配任务没有完成，此时奖励值是一个负的惩罚值‑r^penalty，t＜T表示在装配过程中的奖励值，h_T＝h_max代表装配任务完成，此时的奖励值是一个正向奖励r^large；7)利用贝尔曼方程，将策略值函数Q^μ(s_t,a_t|θ^Q)改写为：其中，μ(s_t+1)为深度强化学习网络中的动作网络在s_t+1状态下输出的待装配双轴零件双轴的装配动作；8)利用策略值函数Q^μ(s_t,a_t|θ^Q)，定义一个损失函数：L(θ^Q)＝E[(Q^μ(s_t,a_t|θ^Q)‑N_t)²]，其中，N_t代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数，N_t＝r(s_t,a_t)+γQ^μ(s_t+1,μ(s_t+1))，E代表计算括号里的期望即平均值通用符号；利用公式求解损失函数L(θ^Q)对网络参数θ^Q的梯度利用公式更新深度强化学习网络中评估网络的网络参数θ^Q，其中η为学习率；9)利用步骤7)改写后的策略值函数值Q^μ(s_t,a_t|θ^Q)，采用链式求导方式，得到深度强化学习网络中动作网络输出的装配动作μ(s|θ^μ)))对网络参数θ^μ的策略梯度利用公式更新深度强化学习网络中的动作网络的网络参数θ^μ；10)根据基于力的阻抗控制算法，将控制参数和作为输出量，将步骤1)‑3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息，形成对应的逻辑规则，然后根据形成的逻辑规则设计一个模糊逻辑系统；11)在t时刻，将当前获得的实时力传感器的值根据设定的参考力和力矩首先计算实时力与参考值之间的偏差然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)‑3)计算环境预测信息，利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数K_p和K_d，根据下式：计算用于控制机器人轴孔装配过程中的六个基本动作12)将实时采集到的力传感器的数据和位置位姿信息输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[‑1,1]之间的修正值13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值，根据下式计算：得到t时刻控制机器人轴孔装配运动的最终动作值14)机器人执行步骤13)中求得的最终动作值根据步骤6)计算获得的奖励函数值r_t；计算t+1时刻轴受到的合力F_x(t+1),F_y(t+1),F_z(t+1)和合力矩M_x(t+1),M_y(t+1),M_z(t+1)以及轴的位置位姿x_t+1,y_t+1,z_t+1,α_t+1,β_t+1,γ_t+1，作为t+1时刻的轴的状态s_t+1，将s_t,a_t,r_t,s_t+1记为作为一个新的经验数据样本并添加到经验数据集中，15)从经验数据集中随机选取64个的经验数据样本，利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θ^Q进行更新，利用步骤9)对深度强化学习网络中的动作网络的网络参数θ^μ进行更新；16)重复上述步骤11)‑步骤15)的训练过程，对深度强化学习网络的网络参数θ^Q和θ^μ进行训练更新，当到达设定的训练次数上限后，将当前训练完毕后的深度强化学习网络用于实际装配过程，若装配过程中在完成时刻T时h_T小于h_max，则增加训练次数1000次或者将学习率减小为原来的0.9倍，然后重复上述步骤11)‑15)的训练过程；若在完成时刻T时h_T等于h_max，则结束训练，得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学;中国科学院自动化研究所，未经清华大学;中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910287227.1/，转载请声明来源钻瓜专利网。

上一篇：自主移动装置、自主移动方法以及存储介质
下一篇：一种基于视觉的机械臂自主抓取方法

同类专利

专利分类

B 作业；运输

B25 手动工具；轻便机动工具；手动器械的手柄；车间设备；机械手
B25J 机械手；装有操纵装置的容器
B25J9-00 程序控制机械手
B25J9-02 .以臂的运动为特征的，例如直角坐标型的
B25J9-06 .以多铰接爪臂为特征的
B25J9-08 .以部件结构为特征的
B25J9-10 .以机械手元件定位装置为特征的
B25J9-16 .程序控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种利用环境预测优化非模型机器人多轴孔装配控制方法有效

专利文献下载