[发明专利]基于特征自适应迁移强化学习的机器人装配方法及系统在审

申请号：	202211138090.1	申请日：	2022-09-19
公开（公告）号：	CN115481688A	公开（公告）日：	2022-12-16
发明（设计）人：	宋锐;靳李岗;李凤鸣;门渔;王艳红;田新诚	申请（专利权）人：	山东大学;山东省工业技术研究院
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08;B25J19/00
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	马海波
地址：	250061 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于特征自适应迁移强化学习机器人装配方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于特征自适应迁移强化学习的机器人装配方法，其特征在于，包括：

获取源域和目标域上机械臂特征数据；

将源域和目标域上的机械臂特征数据进行处理后，计算两者MMD距离，将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集；

建立迁移强化学习模型，利用数据集内的数据对迁移强化学习模型进行预训练；

利用预训练好的迁移强化学习模型在目标域上继续训练，直至得到训练好的迁移强化学习模型在目标域上输入装配任务，输出装配动作。

2.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法，其特征在于，将源域和目标域上机械臂特征数据进行数据归一化后，然后利用MMD距离度量两者差异。

3.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法，所述迁移强化学习模型包括旧策略网络、新策略网络和评价网络；

所述新策略网络的输入为机械臂的当前的装配状态，输出为机械臂下一步的装配动作，通过与环境交互得到机械臂下一装配状态；

所述评价网络用于计算所述新策略网络所输出的最后一步的机械臂装配状态所对应的价值；

所述旧策略网络的输入为机械臂的当前的装配状态，输出为机械臂下一步的装配动作，其权重由新策略网络的权重来更新。

4.如权利要求3所述的基于特征自适应迁移强化学习的机器人装配方法，其特征在于，计算迁移强化学习每一个装配回合中的特征与目标域特征之间的MMD距离，将MMD距离小于设定阈值的数据存入经验回收池内。

5.如权利要求4所述的基于特征自适应迁移强化学习的机器人装配方法，其特征在于，基于新策略网络和旧策略网络的输出值构建第一正态分布和第二正态分布，将经验回收池中最后放入的机械臂动作输出至第一正态分布和第二正态分布，得到对应的第一概率和第二概率，基于第一概率和第二概率得到重要性权重，基于重要性权重构建新策略网络的损失函数，利用损失函数更新新策略网络的权重。

6.如权利要求3所述的基于特征自适应迁移强化学习的机器人装配方法，其特征在于，基于评价网络输出的机械臂装配状态所对应的价值计算折扣奖励，基于机械臂装配状态所对应的价值和折扣奖励，确定评价网络的损失函数，基于评价网络的损失函数对评价网络进行更新。

7.如权利要求1所述的基于特征自适应迁移强化学习的机器人装配方法，其特征在于，所述特征数据包括机械臂的位姿和机械臂接触力矩和机械臂下一装配动作。

8.基于特征自适应迁移强化学习的机器人装配系统，其特征在于，包括：

数据获取模块：用于获取源域和目标域上机械臂特征数据；

距离度量模块：用于将源域和目标域上的机械臂特征数据进行处理后，计算两者MMD距离，将MMD距离小于设定阈值的源域上的机械臂特征数据存入数据集；

模型建立和预训练模块：用于建立迁移强化学习模型，利用数据集内的数据对迁移强化学习模型进行预训练；

再训练模块，利用预训练好的迁移强化学习模型在目标域上继续训练，直至得到训练好的迁移强化学习模型在目标域上输入装配任务，输出装配动作。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征是，该程序被处理器执行时实现如权利要求1-7中任一项所述的基于特征自适应迁移强化学习的机器人装配方法中的步骤。

10.一种处理装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求1-7中任一项所述的基于特征自适应迁移强化学习的机器人装配中的步骤。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学;山东省工业技术研究院，未经山东大学;山东省工业技术研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202211138090.1/1.html，转载请声明来源钻瓜专利网。

上一篇：相机与激光雷达的外参精确标定方法及其系统
下一篇：车载零部件通用的信息安全测试装置及方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于特征自适应迁移强化学习的机器人装配方法及系统在审

专利文献下载