[发明专利]一种利用环境预测优化非模型机器人多轴孔装配控制方法有效
申请号: | 201910287227.1 | 申请日: | 2019-04-11 |
公开(公告)号: | CN110238839B | 公开(公告)日: | 2020-10-20 |
发明(设计)人: | 徐静;侯志民;乔红;陈恳;吴丹 | 申请(专利权)人: | 清华大学;中国科学院自动化研究所 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B23P19/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 廖元秋 |
地址: | 100084*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出一种利用环境预测优化非模型机器人多轴孔装配控制方法,属于机器人装配技术领域。本发明利用通用动作值函数进行环境相关知识预测,并且根据人的装配经验设计模糊逻辑系统将学习的知识预测作为输入,输出用于优化非模型控制算法的参数,当深度强化学习网络迭代次数上限且装配符合要求时,输出训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。本发明可实现对已有非模型机器人控制算法的优化,缩短了机器人多轴孔装配所需的时间。 | ||
搜索关键词: | 一种 利用 环境 预测 优化 模型 机器人 多轴孔 装配 控制 方法 | ||
【主权项】:
1.一种利用环境预测优化非模型机器人多轴孔装配控制方法,其特征在于,包括以下步骤:1)将六维力传感器安装在机器人的末端执行器上,将双孔零件固定在实验台上,在待装配双轴零件上定义轴三维坐标系X‑Y‑Z,轴三维坐标系X‑Y‑Z的坐标原点O位于待装配双轴零件连接板上表面两轴圆心连线的中点,Z轴正向为沿双轴零件的的轴线向下,X轴正向是沿双轴的右轴的圆心指向左轴的圆心,由右手螺旋定则得到Y轴正向;在双孔零件上定义孔坐标系X'‑Y'‑Z',孔坐标系X'‑Y'‑Z'的坐标原点O'位于待装配双孔零件孔底座上表面两孔圆心连线的中点,Z'轴的正向沿双孔的轴线方向向上,X'轴正向与X轴的正向相同,根据右手螺旋定则Y'与Y轴正向相反;2)利用机器人控制器读取装配过程中的六维力传感器的数据,并给定装配过程中双轴零件的装配运动轨迹策略π,将每一时刻双轴的位置和位姿作为双轴零件的当前时刻t的观测量ot,将六维力传感器的观测值做为当前时刻t的环境的反馈值ct,γ用来表示每次装配结束的状态,将对环境的相关预测表示为:Q(ot,π,ct,γ)3)将对于环境的相关预测利用参数w表示成状态ot的线性函数或者非线性神经网络,并且利用时间差分算法利用在装配过程中收集的数据(ot,π,ct,γ)不断的迭代学习参数w:δt=ct+γ·Q(ot+1|wt+1,π,γ)‑Q(ot|wt,π,γ)其中,α代表的是每一次的学习步长,δt代表时间差分算法计中t时刻的误差;4)创建初始为空的经验数据集,设定经验数据集的容量为M,当经验数据集中经验样本数据添加到达容量上限后采取先进先出的原则删除最先添加的经验样本数据;5)在连续动作控制的深度确定性梯度算法DDPG算法中,利用策略值函数Qμ(st,at|θQ)=E[Rt|st,at],计算得到机器人装配过程中,在t时刻采取装配动作at时的预期评估值Qμ(st,at|θQ);其中,st代表t时刻强化学习网络输入的待装配双轴零件双轴的12维状态向量[Fxt,Fyt,Fzt,Mxt,Myt,Mzt,xt,yt,zt,αt,βt,γt],12维状态向量中的[Fxt,Fyt,Fzt,Mxt,Myt,Mzt]代表t时刻从六维力传感器获得的沿XYZ方向力和力矩值,xt,yt,zt代表t时刻从机器人控制器得到待装配双轴零件双轴的空间位置状态,αt,βt,γt代表t时刻从机器人控制器得到的待装配双轴零件双轴分别沿XYZ每个坐标轴的转角,at代表t时刻强化学习网络输出的装配过程中针对相应的六维装配动作向量[Px,Py,Pz,Rx,Ry,Rz]的修正量,Rt为时刻t所获得的经折扣后的未来收益之和,其中i为完成一次装配任务过程中的第i次装配动作,γ为折扣因子,γ∈[0,1],rt(st,at)为时刻t获得的奖励函数,T为一次装配任务的结束时刻;6)定义一个奖励函数其中ht是t时刻待装配双轴零件的双轴在双孔零件中的插入深度,F(t)是t时刻获得的待装配双轴零件的受力状态,c是设定的计算系数用于控制F(t)对rt(st,at)的影响程度,取值为0.01,hT为在装配完成时刻T的双轴零件的双轴在双孔零件中的完成插入深度,hmax是双轴零件的双轴在双孔零件中的要求插入深度,h0是装配初始时双轴零件的双轴在双孔零件中的初始插入深度,hT<hmax代表装配任务没有完成,此时奖励值是一个负的惩罚值‑rpenalty,t<T表示在装配过程中的奖励值,hT=hmax代表装配任务完成,此时的奖励值是一个正向奖励rlarge;7)利用贝尔曼方程,将策略值函数Qμ(st,at|θQ)改写为:其中,μ(st+1)为深度强化学习网络中的动作网络在st+1状态下输出的待装配双轴零件双轴的装配动作;8)利用策略值函数Qμ(st,at|θQ),定义一个损失函数:L(θQ)=E[(Qμ(st,at|θQ)‑Nt)2],其中,Nt代表深度强化学习网络中评估网络在t时刻要达到的目标策略值函数,Nt=r(st,at)+γQμ(st+1,μ(st+1)),E代表计算括号里的期望即平均值通用符号;利用公式求解损失函数L(θQ)对网络参数θQ的梯度利用公式更新深度强化学习网络中评估网络的网络参数θQ,其中η为学习率;9)利用步骤7)改写后的策略值函数值Qμ(st,at|θQ),采用链式求导方式,得到深度强化学习网络中动作网络输出的装配动作μ(s|θμ)))对网络参数θμ的策略梯度利用公式更新深度强化学习网络中的动作网络的网络参数θμ;10)根据基于力的阻抗控制算法,将控制参数和作为输出量,将步骤1)‑3)中学习的环境预测中获得的装配过程中装配零件双轴受到六维力值作为输入信息,形成对应的逻辑规则,然后根据形成的逻辑规则设计一个模糊逻辑系统;11)在t时刻,将当前获得的实时力传感器的值根据设定的参考力和力矩首先计算实时力与参考值之间的偏差然后根据当前获得的双轴零件受到的接触力和力矩根据步骤1)‑3)计算环境预测信息,利用获得的环境预测信息按照步骤10)中设计的模糊逻辑系统输出的阻抗控制算法中的控制参数Kp和Kd,根据下式:计算用于控制机器人轴孔装配过程中的六个基本动作12)将实时采集到的力传感器的数据和位置位姿信息输入深度强化学习网络中的动作网络输出获得t时刻对应机器人六个方向运动的[‑1,1]之间的修正值13)利用步骤11)得到的六个基本动作和步骤12)输出的修正值,根据下式计算:得到t时刻控制机器人轴孔装配运动的最终动作值14)机器人执行步骤13)中求得的最终动作值根据步骤6)计算获得的奖励函数值rt;计算t+1时刻轴受到的合力Fx(t+1),Fy(t+1),Fz(t+1)和合力矩Mx(t+1),My(t+1),Mz(t+1)以及轴的位置位姿xt+1,yt+1,zt+1,αt+1,βt+1,γt+1,作为t+1时刻的轴的状态st+1,将st,at,rt,st+1记为作为一个新的经验数据样本并添加到经验数据集中,15)从经验数据集中随机选取64个的经验数据样本,利用步骤8)对深度深度强化学习网络中的评估网络的网络参数θQ进行更新,利用步骤9)对深度强化学习网络中的动作网络的网络参数θμ进行更新;16)重复上述步骤11)‑步骤15)的训练过程,对深度强化学习网络的网络参数θQ和θμ进行训练更新,当到达设定的训练次数上限后,将当前训练完毕后的深度强化学习网络用于实际装配过程,若装配过程中在完成时刻T时hT小于hmax,则增加训练次数1000次或者将学习率减小为原来的0.9倍,然后重复上述步骤11)‑15)的训练过程;若在完成时刻T时hT等于hmax,则结束训练,得到最终训练完毕的深度强化学习网络用于多轴孔装配过程中输出装配动作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学;中国科学院自动化研究所,未经清华大学;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910287227.1/,转载请声明来源钻瓜专利网。