[发明专利]镜像损失神经网络在审
申请号: | 201880006613.2 | 申请日: | 2018-03-19 |
公开(公告)号: | CN110192205A | 公开(公告)日: | 2019-08-30 |
发明(设计)人: | P.瑟马内特 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/00;G06K9/62 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 观察 神经网络 三元组 捕获 网络参数 第一模 嵌套 控制机器人 智能体 模态 更新 配置 网络 | ||
1.一种训练具有多个网络参数的神经网络的方法,其中,所述神经网络被配置为接收表征环境的状态的输入观察并且处理所述输入观察以生成所述环境的状态的数字嵌套,所述方法包括:
获得由第一模态捕获的第一观察;
获得与第一观察一起发生并且由不同的第二模态捕获的第二观察;
获得由第一模态捕获的不与第一观察一起发生的第三观察;
确定三元组损失的梯度,所述三元组损失使用第一观察作为锚点示例、使用第二观察作为正示例并且使用第三观察作为负示例;以及
使用所述三元组损失的梯度来更新所述网络参数的当前值。
2.根据权利要求1所述的方法,其中,所述观察是图像,其中,第一模态是在第一视点的相机,并且其中,第二模态是在不同的第二视点的相机。
3.根据权利要求1或2中的任一项所述的方法,其中,第三观察在第一观察的时间邻域内。
4.根据权利要求3所述的方法,其中,获得第三观察包括:
从在第一观察的时间邻域内的由第一模态捕获的观察中随机选择第三观察。
5.根据权利要求3所述的方法,其中,获得第三观察包括:
从在第一观察的时间邻域内的由第一模态捕获的观察中选择作为相对于第一观察的困难负观察的观察。
6.根据权利要求1-5中的任一项所述的方法,其中,确定所述三元组损失的梯度包括:
根据所述网络参数的当前值,使用所述神经网络处理第一观察以生成第一嵌套;
根据所述网络参数的当前值,使用所述神经网络处理第二观察以生成第二嵌套;
根据所述网络参数的当前值,使用所述神经网络处理第三观察以生成第三嵌套;以及
从(i)第一嵌套和第二嵌套之间的第一距离与(ii)第一嵌套和第三嵌套之间的第二距离,确定所述三元组损失。
7.根据权利要求1-6中的任一项所述的方法,其中,所述神经网络还被配置为:处理所述数字嵌套以生成限定对与所述环境交互的智能体的控制输入的控制输出。
8.根据权利要求7所述的方法,其中,训练所述神经网络还包括:训练所述神经网络以生成使所述智能体模仿与所述环境交互的另一智能体的控制输出。
9.根据权利要求7或8中任一项所述的方法,其中,第一模态是捕获与所述环境交互的所述智能体的自视图的相机,并且其中,训练所述神经网络还包括训练所述神经网络以生成将所述智能体的关节定位在与在接收到的所捕获的自视图中相同的位置的控制输出。
10.根据权利要求7-9中的任一项所述的方法,其中,所述智能体是机器人智能体。
11.根据权利要求1-10中的任一项所述的方法,其中,所述环境包括执行指定任务的智能体。
12.一种包括一个或多个计算机和一个或多个存储指令的存储设备的系统,所述指令在由所述一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任一项所述的相应方法的操作。
13.一个或多个存储指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行根据权利要求1-11中的任一项所述的相应方法的操作。
14.一种用于生成限定要由与环境交互的智能体执行的动作的控制输出的方法,所述方法包括执行指令以处理由根据权利要求1-11中的任一项训练的神经网络生成的一个或多个数字嵌套。
15.根据权利要求14所述的方法,其中,所述智能体是机器人智能体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880006613.2/1.html,转载请声明来源钻瓜专利网。