[发明专利]基于深度强化学习的多机械臂协同装配方法和系统在审

申请号：	202010641629.X	申请日：	2020-07-06
公开（公告）号：	CN111881772A	公开（公告）日：	2020-11-03
发明（设计）人：	乐心怡;李霏;马国财;方晓猛;李钧正;庞栋	申请（专利权）人：	上海交通大学;北京电子工程总体研究所
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;B25J9/16
代理公司：	上海汉声知识产权代理有限公司 31236	代理人：	胡晶
地址：	200240 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习机械协同装配方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种基于深度强化学习的多机械臂协同装配方法和系统，包括：多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成，所述多源异构传感网络感知机械臂、零件和环境的状态信息，在服务器上构建策略模型，根据实时状态选择最优行为，并向控制器发送控制指令，控制各机械臂相互靠近、调整位姿以及定位装配，实现最大化奖励，完成智能化装配。本发明直接从高维原始数据中学习，是端到端的控制模式，并且对多模态传感信号进行融合表征，充分提取关键特征信息的同时降低样本的复杂性，提高样本的有效性。

技术领域

本发明涉及机械臂装配技术领域，具体地，涉及一种基于深度强化学习的多机械臂协同装配方法和系统。尤其地，涉及一种基于深度强化学习的机械臂孔轴装配方法。

背景技术

单件小批量的航空航天类产品要求生产线具备多品种、多自由度和高可靠性的个性化生产能力。多机械臂系统具有更高的负载能力和执行耦合任务的灵活性，人工神经网络具有较强的拟合非线性映射的能力。因此，将人工神经网络算法应用于多机械臂协同控制系统，有助于提高产品生产线的柔性、智能化和自适应能力，从而满足航空航天类及其类似产品的个性化生产需求。

多机械臂协同装配是非嵌入式的、高维的和依赖多源传感输入的复杂控制任务。近五年来，结合深度学习在处理数据方面的优势和强化学习在决策控制方面的优势而诞生的深度强化学习，在很多类似多机械臂协同装配的复杂任务中表现出了与人类水平接近的能力，尤其表现在使用未经处理的像素信号作为输入的许多ATARI视频游戏。因此，本发明使用深度强化学习来解决多机械臂协同装配任务的控制问题。

专利文献CN109543823A(申请号：201811454906.5)公开了一种基于多模信息描述的柔性装配系统及方法，包括：在机械臂末端零部件与待装配零部件未接触阶段，通过视觉引导将机械臂快速定位在目标位置附近，实现视觉引导粗定位；当机械臂末端零部件与待装配零部件接触后，借助力觉信息和机械臂自身的参数，形成装配状态的多模信息描述，基于深度强化学习方法进行姿态调整，实现装配零部件的力觉调姿精装配。

发明内容

针对现有技术中的缺陷，本发明的目的是提供一种基于深度强化学习的多机械臂协同装配方法和系统。

根据本发明提供的基于深度强化学习的多机械臂协同装配方法，包括：

步骤1：利用多源异构传感网络从环境中采集状态信息；

步骤2：对状态信息进行特征提取，得到抽象特征；

步骤3：对抽象特征进行融合表征；

步骤4：将融合表征后的抽象特征作为神经网络的输入参数进行训练，得到策略模型；

步骤5：策略模型为从状态空间到动作空间的映射，根据输入的状态输出控制机械臂的控制指令；

步骤6：根据控制指令，机械臂执行相应的动作后环境改变，将新的状态信息和奖励值反馈给机械臂用于修正策略模型；

步骤7：修正一次策略模型的行为定义为一次交互，并将机械臂完成一次装配任务定义为一个回合，机械臂在一个回合中需要进行多次交互，直到满足终止条件；

步骤8：满足终止条件后进入下一个回合，并记录上一个回合的奖励值总和，神经网络沿着最大化奖励值总和的梯度方向更新参数；

步骤9：进行多个回合的迭代训练，深度确定性策略梯度算法收敛，多机械臂协同装配任务完成，得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型；