[发明专利]力和扭矩引导的机器人装配技术在审
申请号: | 202111172353.6 | 申请日: | 2021-10-08 |
公开(公告)号: | CN114378811A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 罗捷亮;李卉 | 申请(专利权)人: | 欧特克公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;B25J19/00;G06N20/00 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 赵楠 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 扭矩 引导 机器人 装配 技术 | ||
1.一种用于控制机器人的计算机实现的方法,所述方法包括:
接收与所述机器人相关联的传感器数据,其中所述传感器数据包括力数据或扭矩数据中的至少一者;
对所述传感器数据应用机器学习模型以生成动作,其中所述机器学习模型经由强化学习进行训练;以及
致使所述机器人基于所述动作执行一个或多个移动。
2.如权利要求1所述的计算机实现的方法,其中所述机器学习模型包括至少一个记忆层。
3.如权利要求2所述的计算机实现的方法,其中所述机器学习模型还包括全连接层、Q网络或pi网络中的至少一者。
4.如权利要求1所述的计算机实现的方法,其中在所述强化学习期间,所述机器学习模型在不包括所述机器人的模型的环境中进行训练。
5.如权利要求1所述的计算机实现的方法,其中在所述强化学习期间,学习者更新所述机器学习模型的参数,并且所述学习者进一步更新用于对所存储的各自包括观察结果、动作和奖励的过渡进行采样的一个或多个优先级以及用于对各自包括多个过渡的序列进行采样的一个或多个优先级。
6.如权利要求5所述的计算机实现的方法,其中在所述强化学习期间,所述学习者进一步更新至少一个其他机器学习模型的参数,并且所述至少一个其他机器学习模型在至少一个模拟环境中进行应用。
7.如权利要求1所述的计算机实现的方法,其中:
在所述强化学习期间,包括过渡情节中的过渡的最后两个时间序列重叠,并且所述重叠的量基于所述情节的长度;以及
所述过渡情节中包括的每个过渡包括观察结果、动作和奖励。
8.如权利要求1所述的计算机实现的方法,其中所述动作包括目标速度,并且致使所述机器人基于所述动作执行所述一个或多个移动包括:
基于所述目标速度使用逆动力学计算所述机器人的一个或多个接头的一个或多个移动;以及
基于所述一个或多个接头的所述一个或多个移动向所述机器人传输至少一个命令信号。
9.如权利要求1所述的计算机实现的方法,其中所述传感器数据由安装在所述机器人的末端执行器上的传感器获取。
10.如权利要求1所述的计算机实现的方法,其还包括确定接头构件的姿态与目标姿态之间的距离是否小于阈值距离。
11.一种或多种非暂时性计算机可读介质,其包括指令,所述指令在由至少一个处理器执行时,致使所述至少一个处理器执行用于控制机器人的步骤,所述步骤包括:
接收与所述机器人相关联的传感器数据,其中所述传感器数据包括力或扭矩数据中的至少一者;
对所述传感器数据应用机器学习模型以生成动作,其中所述机器学习模型经由强化学习进行训练;以及
致使所述机器人基于所述动作执行一个或多个移动。
12.如权利要求11所述的一种或多种非暂时性计算机可读存储介质,其中,在由所述至少一个处理器执行时,所述指令进一步致使所述至少一个处理器执行以下步骤:
确定接头构件的姿态与目标姿态之间的距离是否小于阈值距离。
13.如权利要求11所述的一种或多种非暂时性计算机可读存储介质,其中所述动作包括目标速度,并且致使所述机器人基于所述动作执行所述一个或多个移动包括:
基于所述目标速度使用逆动力学计算所述机器人的一个或多个接头的一个或多个移动;以及
基于所述一个或多个接头的所述一个或多个移动向所述机器人传输至少一个命令信号。
14.如权利要求11所述的一种或多种非暂时性计算机可读存储介质,其中所述传感器数据由安装在所述机器人的末端执行器上的传感器获取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧特克公司,未经欧特克公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111172353.6/1.html,转载请声明来源钻瓜专利网。