[发明专利]基于强化学习的微零件精密装配方法、装置和系统有效

申请号：	202110137780.4	申请日：	2021-02-01
公开（公告）号：	CN112965372B	公开（公告）日：	2022-04-01
发明（设计）人：	李迎;徐德	申请（专利权）人：	中国科学院自动化研究所
主分类号：	G05B13/04	分类号：	G05B13/04;G06N20/00;B25B27/00
代理公司：	北京市恒有知识产权代理事务所(普通合伙) 11576	代理人：	郭文浩;尹文会
地址：	100190 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于强化学习零件精密装配方法装置系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于强化学习的微零件精密装配方法，应用于微零件精密装配装置，所述装置包括显微视觉设备、视觉连接线、调整平台、操作手、设置在调整平台上的力传感器、设置在力传感器上的第一微零件、设置在操作手上的第二微零件、控制线和计算机，其特征在于，所述方法包括：

步骤S100，实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息；

步骤S200，基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤S300，基于所述力传感器信息，通过基于强化学习的装配模型将位姿对准后的第一微零件和第二微零件进行装配；

所述基于强化学习的装配模型，其获得方法为：

步骤A100，实时获取第一微零件的显微视觉图像、第二微零件的显微视觉图像和力传感器信息，

步骤A200，基于第一微零件的显微视觉图像和第二微零件的显微视觉图像，完成第一微零件和第二微零件位姿对准；

步骤A300，基于所述力传感器信息，通过主动运动的方式标定操作手与力传感器的力的雅可比矩阵；

步骤A400，基于所述力的雅可比矩阵获取专家动作a_e；

所述专家动作a_e为：

a_e＝[d_ex，d_ey，d_ez]

其中，d_ex表示沿着X_W轴的调整运动量，d_ey表示沿着Y_W轴的调整运动量，d_ez表示沿着Z_W轴的插入步长；

所述d_ex和d_ey为：

其中，J_F∈R^2×2是力的雅可比矩阵，β∈(0，1)，f_x和f_y表示沿着X_W轴和沿着Y_W轴接触力；

步骤A500，通过强化学习框架，获取改进动作a_r；

所述强化学习框架包括评估网络和动作网络；

所述评估网络，通过在仿真环境中最大化目标函数J(θ^μ)更新评估网络的网络参数θ^μ训练强化学习框架：

J(θ^μ)＝E[Q(s_i，μ(s_i|θ^μ))]

其中，J(θ^μ)表示目标函数，E表示数学期望，Q表示动作值，s_i＝[f_x，f_y，f_z，p_z]^T表示第i个样本的状态，其中f_x，f_y，f_z表示沿着X_f，Y_f，Z_f轴方向的接触力，p_z表示当前沿着Z_W轴方向的插入深度；

所述动作网络，通过在仿真环境中最小化损失函数L更新动作网络的网络参数θ^Q训练强化学习框架：

其中，n表示回合中的步数，s_i表示第i个样本的状态，y_i表示动作值Q的目标值，a_i＝[d_x，d_y，d_z]^T表示装配动作，其中d_x，d_y，d_z表示分别沿着X_W、Y_W和Z_W轴方向的调整运动量；

步骤A600，将所述专家动作a_e和改进动作a_r相加获得最终动作a_t；

步骤A700，基于所述最终动作a_t，通过回合-单步动态探索策略，将位姿对准后的第一微零件和第二微零件进行装配，得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件；

步骤A700包括：

步骤A710，向所述最终动作a_t添加高斯噪声，生成带噪声的动作a_f：

a_f＝a_t+N(0，σ_aI)

其中，σ_a为标准差，N表示高斯噪声，I表示单位矩阵；

步骤A720，基于所述带噪声的动作a_f，通过重复进行回合-单步的动态探索，获得训练好的强化学习框架；

所述回合-单步的动态探索包括回合探索和单步探索；

所述回合探索，在每回合完成后更新标准差σ_a的数值，其方法为：

其中，n_s为回合中的步数；σ_t1和σ_t2表示预设的阈值且σ_t1＞σ_t2，R_Mi表示奖励函数；

所述单步探索，在回合中每一步动作后更新标准差σ_a的数值，其方法为：

根据安全-效率奖励函数更新标准差σ_a：

σ_a←σ_a-σ_btanh(R_M-R_e)

其中，σ_b为预设的常数，且σ_a被限制在预设的范围[σ_min，σ_max]内；

所述安全-效率奖励函数R_Mi，包括安全奖励R_1i和效率奖励R_2i；

其中，f_T为最大径向接触力，D_T为允许的最大插入步长，f_ri是执行第i次动作后的径向接触力，d_zi为第i次动作后沿Z_W轴方向的调整运动量，R_1i表示第i次动作后的安全奖励，R_2i表示第i次动作后的效率奖励，R_1(i-1)为第i-1次动作的安全奖励；

步骤A730，基于所述强化学习框架将位姿对准后的第一微零件和第二微零件进行装配，并得到训练好的基于强化学习的装配模型和装配好的第一微零件和第二微零件。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中国科学院自动化研究所，未经中国科学院自动化研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110137780.4/1.html，转载请声明来源钻瓜专利网。

上一篇：一种钢轨护轨层制造组合系统及制造方法
下一篇：一种含铀低品位多金属矿综合回收方法

同类专利

专利分类

G 物理

G05 控制；调节
G05B 一般的控制或调节系统；这种系统的功能单元；用于这种系统或单元的监视或测试装置
G05B13-00 自适应控制系统，即系统按照一些预定的准则自动调整自己使之具有最佳性能的系统
G05B13-02 .电的
G05B13-04 ..包括使用模型或模拟器的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于强化学习的微零件精密装配方法、装置和系统有效

专利文献下载