[发明专利]基于深度强化学习的多机械臂协同装配方法和系统在审
申请号: | 202010641629.X | 申请日: | 2020-07-06 |
公开(公告)号: | CN111881772A | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 乐心怡;李霏;马国财;方晓猛;李钧正;庞栋 | 申请(专利权)人: | 上海交通大学;北京电子工程总体研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;B25J9/16 |
代理公司: | 上海汉声知识产权代理有限公司 31236 | 代理人: | 胡晶 |
地址: | 200240 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 机械 协同 装配 方法 系统 | ||
1.一种基于深度强化学习的多机械臂协同装配方法,其特征在于,包括:
步骤1:利用多源异构传感网络从环境中采集状态信息;
步骤2:对状态信息进行特征提取,得到抽象特征;
步骤3:对抽象特征进行融合表征;
步骤4:将融合表征后的抽象特征作为神经网络的输入参数进行训练,得到策略模型;
步骤5:策略模型为从状态空间到动作空间的映射,根据输入的状态输出控制机械臂的控制指令;
步骤6:根据控制指令,机械臂执行相应的动作后环境改变,将新的状态信息和奖励值反馈给机械臂用于修正策略模型;
步骤7:修正一次策略模型的行为定义为一次交互,并将机械臂完成一次装配任务定义为一个回合,机械臂在一个回合中需要进行多次交互,直到满足终止条件;
步骤8:满足终止条件后进入下一个回合,并记录上一个回合的奖励值总和,神经网络沿着最大化奖励值总和的梯度方向更新参数;
步骤9:进行多个回合的迭代训练,深度确定性策略梯度算法收敛,多机械臂协同装配任务完成,得到的神经网络为用于控制机械臂协同完成装配任务的最优策略模型;
所述多源异构传感网络由机械臂本体信息、六分力传感器信号和深度相机信号构成,所述多源异构传感网络感知机械臂、零件和环境的状态信息,在服务器上构建策略模型,根据实时状态选择最优行为,并向控制器发送控制指令,控制各机械臂相互靠近、调整位姿以及定位装配,实现最大化奖励,完成智能化装配。
2.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,机械臂、六分力传感器和深度相机的传感数据是原始高维信号;
所述深度相机信号包括RGB图像和深度图像;
机械臂本体信息和六分力传感器信号依靠全连接神经网络进行特征提取,深度相机的图像信号依靠卷积神经网络进行特征提取;
全连接神经网络和卷神经网络利用自编码器框架进行训练,收敛后进行特征提取。
3.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤3包括:构建表征神经网络,深度相机信号经过特征提取后,从表征神经网络的第一层神经元输入;机械臂本体信息和六分力传感器信号经过特征提取后,从表征神经网络的倒数第二个隐藏层输入。
4.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,使用深度确定性策略梯度框架对代表策略模型的神经网络进行训练;
策略模型选择的行为同时用于控制多个机械臂在操作空间的运动增量。
5.根据权利要求1所述的基于深度强化学习的多机械臂协同装配方法,其特征在于,所述步骤6包括:使用奖励重塑的方法,将机械臂在完成装配过程中的奖励细化,在每个状态都获得不同的奖励值,针对不同的装配使用相同的奖励函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海交通大学;北京电子工程总体研究所,未经上海交通大学;北京电子工程总体研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010641629.X/1.html,转载请声明来源钻瓜专利网。