[发明专利]基于强化学习的微零件精密装配方法、装置和系统有效
申请号: | 202110137780.4 | 申请日: | 2021-02-01 |
公开(公告)号: | CN112965372B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 李迎;徐德 | 申请(专利权)人: | 中国科学院自动化研究所 |
主分类号: | G05B13/04 | 分类号: | G05B13/04;G06N20/00;B25B27/00 |
代理公司: | 北京市恒有知识产权代理事务所(普通合伙) 11576 | 代理人: | 郭文浩;尹文会 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 零件 精密 装配 方法 装置 系统 | ||
1.一种基于强化学习的微零件精密装配方法,应用于微零件精密装配装置,所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机,其特征在于,所述方法包括:
步骤S100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息;
步骤S200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤S300,基于所述力传感器信息,通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配;
所述基于强化学习的装配模型,其获得方法为:
步骤A100,实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息,
步骤A200,基于第一微零件的显微视觉图像和第二微零件的显微视觉图像,完成第一微零件和第二微零件位姿对准;
步骤A300,基于所述力传感器信息,通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵;
步骤A400,基于所述力的雅可比矩阵获取专家动作ae;
所述专家动作ae为:
ae=[dex,dey,dez]
其中,dex表示沿着XW轴的调整运动量,dey表示沿着YW轴的调整运动量,dez表示沿着ZW轴的插入步长;
所述dex和dey为:
其中,JF∈R2×2是力的雅可比矩阵,β∈(0,1),fx和fy表示沿着XW轴和沿着YW轴接触力;
步骤A500,通过强化学习框架,获取改进动作ar;
所述强化学习框架包括评估网络和动作网络;
所述评估网络,通过在仿真环境中最大化目标函数J(θμ)更新评估网络的网络参数θμ训练强化学习框架:
J(θμ)=E[Q(si,μ(si|θμ))]
其中,J(θμ)表示目标函数,E表示数学期望,Q表示动作值,si=[fx,fy,fz,pz]T表示第i个样本的状态,其中fx,fy,fz表示沿着Xf,Yf,Zf轴方向的接触力,pz表示当前沿着ZW轴方向的插入深度;
所述动作网络,通过在仿真环境中最小化损失函数L更新动作网络的网络参数θQ训练强化学习框架:
其中,n表示回合中的步数,si表示第i个样本的状态,yi表示动作值Q的目标值,ai=[dx,dy,dz]T表示装配动作,其中dx,dy,dz表示分别沿着XW、YW和ZW轴方向的调整运动量;
步骤A600,将所述专家动作ae和改进动作ar相加获得最终动作at;
步骤A700,基于所述最终动作at,通过回合-单步动态探索策略,将位姿对准后的第一微零件和第二微零件进行装配,得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件;
步骤A700包括:
步骤A710,向所述最终动作at添加高斯噪声,生成带噪声的动作af:
af=at+N(0,σaI)
其中,σa为标准差,N表示高斯噪声,I表示单位矩阵;
步骤A720,基于所述带噪声的动作af,通过重复进行回合-单步的动态探索,获得训练好的强化学习框架;
所述回合-单步的动态探索包括回合探索和单步探索;
所述回合探索,在每回合完成后更新标准差σa的数值,其方法为:
其中,ns为回合中的步数;σt1和σt2表示预设的阈值且σt1>σt2,RMi表示奖励函数;
所述单步探索,在回合中每一步动作后更新标准差σa的数值,其方法为:
根据安全-效率奖励函数更新标准差σa:
σa←σa-σbtanh(RM-Re)
其中,σb为预设的常数,且σa被限制在预设的范围[σmin,σmax]内;
所述安全-效率奖励函数RMi,包括安全奖励R1i和效率奖励R2i;
其中,fT为最大径向接触力,DT为允许的最大插入步长,fri是执行第i次动作后的径向接触力,dzi为第i次动作后沿ZW轴方向的调整运动量,R1i表示第i次动作后的安全奖励,R2i表示第i次动作后的效率奖励,R1(i-1)为第i-1次动作的安全奖励;
步骤A730,基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配,并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所,未经中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110137780.4/1.html,转载请声明来源钻瓜专利网。