[发明专利]触觉抓取策略的强化学习在审
申请号: | 202080089194.0 | 申请日: | 2020-10-16 |
公开(公告)号: | CN114845842A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | J·特伦布莱;V·C·维贾伊·库马尔;T·赫尔曼斯 | 申请(专利权)人: | 辉达公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G06N3/00;G06N3/04;G06N3/063;G06N3/08 |
代理公司: | 北京市磐华律师事务所 11336 | 代理人: | 高伟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 触觉 抓取 策略 强化 学习 | ||
1.一种处理器,包括:
一个或更多个电路,用于使机器人抓取机制能够至少部分地基于一个或更多个神经网络抓取具有第一体积或小于所述第一体积的对象,所述神经网络仅用体积等于所述第一体积的一个或更多个对象进行训练。
2.如权利要求1所述的处理器,其中:
具有等于所述第一体积的体积的所述一个或更多个对象包括虚拟包围盒;以及
至少部分地基于来自所述机器人抓取机制的一个或更多个传感器的触觉传感器数据进一步训练所述一个或更多个神经网络。
3.如权利要求1所述的处理器,其中由所述机器人抓取机制抓取的对象具有不同于用于训练所述一个或更多个神经网络的所述一个或更多个对象的形状。
4.如权利要求1所述的处理器,其中:
所述机器人抓取机制是具有多个手指的机械手;以及
所述多个手指中的每个手指配备有一个或更多个触觉传感器。
5.如权利要求2所述的处理器,其中:
相机获取待抓取对象的图像;
所述图像用于估计所述对象的6d姿态;以及
所述虚拟包围盒至少部分地基于所述对象的所述6d姿态而生成。
6.如权利要求2所述的处理器,其中所述虚拟包围盒至少部分地基于所述对象的点云而生成。
7.如权利要求1所述的处理器,其中:
训练所述神经网络至少部分地基于人手进行抓取的一个或更多个图像;以及
所述人手进行抓取的图像是奖励函数的组成部分。
8.一种系统,包括:
一个或更多个电路,用于使机器人抓取机制能够至少部分地基于一个或更多个神经网络抓取具有第一体积或小于所述第一体积的对象,所述神经网络仅用体积等于所述第一体积的一个或更多个对象进行训练;以及
一个或更多个存储器,用于存储所述一个或更多个神经网络。
9.如权利要求8所述的系统,其中:
具有等于所述第一体积的体积的所述一个或更多个对象包括虚拟包围盒;以及
至少部分地基于来自所述机器人抓取机制的一个或更多个传感器的触觉传感器数据进一步训练所述一个或更多个神经网络。
10.如权利要求8所述的系统,其中训练所述一个或更多个神经网络至少部分地基于提供给所述系统的人类抓取演示来完成。
11.如权利要求8所述的系统,其中一个或更多个触觉传感器提供指示与所述对象接触的力感测信息。
12.如权利要求8所述的系统,其中:
所述机器人抓取机制具有多个指部,所述指部具有多个铰接关节;以及
所述系统的动作空间被定义为所述多个铰接关节中的每一个的位置。
13.如权利要求8所述的系统,其中:
使用奖励函数训练所述一个或更多个神经网络;以及
所述奖励函数至少部分地基于所述机器人抓取机制相对于所述对象的位置。
14.如权利要求13所述的系统,其中:
所述奖励函数至少部分地基于人手运动的演示;以及
所述奖励函数至少部分地基于人手的指尖位置与所述机器人抓取机制的指尖位置之间的差。
15.如权利要求13所述的系统,其中所述奖励函数至少部分地基于所述机器人抓取机制提升所述对象的能力。
16.一种处理器,包括:
一个或更多个电路,用于仅使用体积等于第一体积的一个或更多个对象训练神经网络以使机器人抓取机制能够抓取具有所述第一体积或小于所述第一体积的对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辉达公司,未经辉达公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202080089194.0/1.html,转载请声明来源钻瓜专利网。