[发明专利]使用循环神经网络的机器人末端执行器的视点不变的视觉伺服有效
申请号: | 201880040068.9 | 申请日: | 2018-12-04 |
公开(公告)号: | CN110769985B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | A.托谢夫;F.萨德吉;S.莱维恩 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | B25J9/16 | 分类号: | B25J9/16;G05B13/02;G06N3/08 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 循环 神经网络 机器人 末端 执行 视点 不变 视觉 伺服 | ||
1.一种对机器人的末端执行器进行伺服的方法,包括:
确定查询图像,所述查询图像捕获将由所述机器人的末端执行器进行交互的目标对象;
基于使用神经网络模型处理所述查询图像、场景图像、以及先前动作表示生成动作预测,其中所述场景图像由与机器人相关联的视觉组件捕获,并捕获目标对象和机器人的末端执行器,并且其中神经网络模型包括一个或多个循环层,每个循环层包括多个记忆单元;
基于动作预测控制所述机器人的末端执行器;
紧随在生成动作预测之后生成附加的动作预测,紧随在后的动作预测基于使用神经网络模型处理所述查询图像、附加场景图像和动作预测而生成,其中所述附加场景图像在基于动作预测控制末端执行器之后由视觉组件捕获,并捕获目标对象和末端执行器;以及
基于附加的动作预测,控制机器人的末端执行器。
2.根据权利要求1所述的方法,其中,基于使用神经网络模型处理所述查询图像、所述场景图像、以及所述先前动作表示而生成动作预测包括:
使用神经网络模型的视觉部分的多个视觉层来处理所述查询图像和所述场景图像,以生成视觉层输出;
使用神经网络模型的动作部分的一个或多个动作层处理所述先前的动作表示以生成动作输出;
将视觉层输出和动作输出组合并使用神经网络模型的多个策略层处理组合的视觉层输出和动作输出,所述策略层包括一个或多个循环层。
3.根据权利要求2所述的方法,其中,所述一个或多个循环层的多个记忆单元包括长短期记忆单元。
4.根据权利要求2或3所述的方法,其中,使用所述神经网络模型的视觉部分的多个视觉层来处理所述查询图像和所述场景图像以生成视觉层输出包括:
在所述视觉层的第一卷积神经网络部分上处理所述查询图像,以生成查询图像嵌入;
在所述视觉层的第二卷积神经网络部分上处理所述场景图像,以生成场景图像嵌入;以及
基于所述查询图像嵌入和所述场景图像嵌入生成所述视觉层输出。
5.根据权利要求4所述的方法,其中,基于所述查询图像嵌入和所述场景图像嵌入生成所述视觉层输出包括:在所述视觉层的一个或多个附加层上处理所述查询图像嵌入和所述场景图像嵌入。
6.根据前述任一权利要求所述的方法,其中,所述动作预测表示在所述机器人的机器人坐标系中用于所述末端执行器的位移的速度矢量。
7.根据前述任一权利要求所述的方法,其中,确定所述查询图像基于来自用户的用户接口输入。
8.根据权利要求7所述的方法,其中,所述用户接口输入是键入的或说出的用户接口输入,并且其中,基于来自用户的用户接口输入确定所述查询图像包括:
从多个库存图像中选择所述查询图像,基于与选择的查询图像关联的数据,匹配基于用户接口输入确定的一个或多个项。
9.根据权利要求7所述的方法,其中,基于来自用户的用户接口输入确定所述查询图像包括:
使所述场景图像或先前场景图像经由计算设备呈现给用户;
其中,用户接口输入经由计算设备接收,并且指示所呈现的场景图像或先前的场景图像的子集;以及
基于所述场景图像或所述先前场景图像的裁剪生成所述查询图像,其中,基于用户接口输入确定裁剪。
10.根据前述任一权利要求所述的方法,其中,基于由所述机器人的视觉组件捕获的图像来生成所述查询图像。
11.根据前述任一权利要求所述的方法,其中,所述查询图像、所述场景图像和所述附加场景图像均为二维图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880040068.9/1.html,转载请声明来源钻瓜专利网。