[发明专利]基于特征自适应迁移强化学习的机器人装配方法及系统在审
申请号: | 202211138090.1 | 申请日: | 2022-09-19 |
公开(公告)号: | CN115481688A | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 宋锐;靳李岗;李凤鸣;门渔;王艳红;田新诚 | 申请(专利权)人: | 山东大学;山东省工业技术研究院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08;B25J19/00 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 马海波 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 自适应 迁移 强化 学习 机器人 装配 方法 系统 | ||
本发明提供基于特征自适应迁移强化学习的机器人装配方法及系统,本发明结合源域专家数据信息,基于源域与目标域特征之间的距离筛选数据,通过源域与目标域之间先验知识的迁移,更快地获得目标域的装配策略。
技术领域
本发明属于机器人装配相关技术领域,尤其涉及基于特征自适应迁移强化学习的机器人装配方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
装配任务与装配对象的多样化是机器人提升自身柔性操作技能亟待解决的问题之一。在轴孔装配以及复杂零部件的装配过程中,由于装配对象的多样化、装配模型复杂,在一种装配任务上训练好的策略在直接迁移到另一种装配任务上时往往达不到理想的装配效果,而新的装配任务往往因为零部件易损坏等原因而难以获得足够的交互数据。
因此,如何使机器人的装配技能更加泛化,从而能够应对多种复杂对象的装配,通过利用原任务上的先验知识减少新任务上的交互时间与迭代次数,降低交互成本,是目前亟待解决的问题。
发明内容
为了解决上述问题,本发明提供基于特征自适应迁移强化学习的机器人装配方法及系统,本发明结合源域专家数据信息,利用原任务上的先验知识,基于源域与目标域特征之间的距离筛选数据,通过源域与目标域之间先验知识的迁移,更快地获得目标域的装配策略。
为了实现上述目的,本发明的第一个方面提供,采用如下技术方案:基于特征自适应迁移强化学习的机器人装配方法,包括:
获取源域和目标域上机械臂特征数据;
将源域和目标域上的机械臂特征数据进行处理后,计算两者MMD距离,将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集;
建立迁移强化学习模型,利用数据集内的数据对迁移强化学习模型进行预训练;
利用预训练好的迁移强化学习模型在目标域上继续训练,直至得到训练好的迁移强化学习模型在目标域上输入装配任务,输出装配动作。
本发明的第二个方面提供基于特征自适应迁移强化学习的机器人装配系统,包括:
数据获取模块:用于获取源域和目标域上机械臂特征数据;
距离度量模块:用于将源域和目标域上的机械臂特征数据进行处理后,计算两者MMD距离,将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集;
模型建立和预训练模块:用于建立迁移强化学习模型,利用数据集内的数据对迁移强化学习模型进行预训练;
再训练模块,利用预训练好的迁移强化学习模型在目标域上继续训练,直至得到训练好的迁移强化学习模型在目标域上输入装配任务,输出装配动作。
本发明的第三个方面提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述方法所述的步骤。
本发明的第四个方面提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算。
本发明的有益效果是:
在本发明结合源域专家数据信息,基于源域与目标域特征之间的距离筛选数据,通过源域与目标域之间先验知识的迁移,更快地获得目标域的装配策略,相比直接在目标领域探索,能够减少与目标域的环境交互,节省人力成本。
在本发明中,改进了模型网络的更新方式,挑选离目标轨迹最接近的交互数据更新网络,使网络的训练过程更加稳定。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学;山东省工业技术研究院,未经山东大学;山东省工业技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211138090.1/2.html,转载请声明来源钻瓜专利网。