[发明专利]基于特征自适应迁移强化学习的机器人装配方法及系统在审
申请号: | 202211138090.1 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115481688A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 宋锐;靳李岗;李凤鸣;门渔;王艳红;田新诚 | 申请(专利权)人: | 山东大学;山东省工业技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;B25J19/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 马海波 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 自适应 迁移 强化 学习 机器人 装配 方法 系统 | ||
1.基于特征自适应迁移强化学习的机器人装配方法,其特征在于,包括:
获取源域和目标域上机械臂特征数据;
将源域和目标域上的机械臂特征数据进行处理后,计算两者MMD距离,将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集;
建立迁移强化学习模型,利用数据集内的数据对迁移强化学习模型进行预训练;
利用预训练好的迁移强化学习模型在目标域上继续训练,直至得到训练好的迁移强化学习模型在目标域上输入装配任务,输出装配动作。
2.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法,其特征在于,将源域和目标域上机械臂特征数据进行数据归一化后,然后利用MMD距离度量两者差异。
3.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法,所述迁移强化学习模型包括旧策略网络、新策略网络和评价网络;
所述新策略网络的输入为机械臂的当前的装配状态,输出为机械臂下一步的装配动作,通过与环境交互得到机械臂下一装配状态;
所述评价网络用于计算所述新策略网络所输出的最后一步的机械臂装配状态所对应的价值;
所述旧策略网络的输入为机械臂的当前的装配状态,输出为机械臂下一步的装配动作,其权重由新策略网络的权重来更新。
4.如权利要求3所述的基于特征自适应迁移强化学习的机器人装配方法,其特征在于,计算迁移强化学习每一个装配回合中的特征与目标域特征之间的MMD距离,将MMD距离小于设定阈值的数据存入经验回收池内。
5.如权利要求4所述的基于特征自适应迁移强化学习的机器人装配方法,其特征在于,基于新策略网络和旧策略网络的输出值构建第一正态分布和第二正态分布,将经验回收池中最后放入的机械臂动作输出至第一正态分布和第二正态分布,得到对应的第一概率和第二概率,基于第一概率和第二概率得到重要性权重,基于重要性权重构建新策略网络的损失函数,利用损失函数更新新策略网络的权重。
6.如权利要求3所述的基于特征自适应迁移强化学习的机器人装配方法,其特征在于,基于评价网络输出的机械臂装配状态所对应的价值计算折扣奖励,基于机械臂装配状态所对应的价值和折扣奖励,确定评价网络的损失函数,基于评价网络的损失函数对评价网络进行更新。
7.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法,其特征在于,所述特征数据包括机械臂的位姿和机械臂接触力矩和机械臂下一装配动作。
8.基于特征自适应迁移强化学习的机器人装配系统,其特征在于,包括:
数据获取模块:用于获取源域和目标域上机械臂特征数据;
距离度量模块:用于将源域和目标域上的机械臂特征数据进行处理后,计算两者MMD距离,将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集;
模型建立和预训练模块:用于建立迁移强化学习模型,利用数据集内的数据对迁移强化学习模型进行预训练;
再训练模块,利用预训练好的迁移强化学习模型在目标域上继续训练,直至得到训练好的迁移强化学习模型在目标域上输入装配任务,输出装配动作。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征是,该程序被处理器执行时实现如权利要求1-7中任一项所述的基于特征自适应迁移强化学习的机器人装配方法中的步骤。
10.一种处理装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于特征自适应迁移强化学习的机器人装配中的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学;山东省工业技术研究院,未经山东大学;山东省工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211138090.1/1.html,转载请声明来源钻瓜专利网。