[发明专利]镜像损失神经网络在审

申请号：	201880006613.2	申请日：	2018-03-19
公开（公告）号：	CN110192205A	公开（公告）日：	2019-08-30
发明（设计）人：	P.瑟马内特	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06K9/00;G06K9/62
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	美国加利***	国省代码：	美国;US
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	观察神经网络三元组捕获网络参数第一模嵌套控制机器人智能体模态更新配置网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书涉及神经网络，该神经网络具有多个网络参数并且被配置为接收表征环境的状态的输入观察并且处理输入观察以生成环境的状态的数字嵌套。该神经网络可以用于控制机器人智能体。可以使用包括以下步骤的方法来训练该网络：获得由第一模态捕获的第一观察；获得与第一观察一起发生并且由第二不同的模态捕获的第二观察；获得由第一模态捕获的不与第一观察一起发生的第三观察；确定三元组损失的梯度，所述三元组损失使用第一观察、第二观察和第三观察；以及使用所述三元组损失的梯度来更新所述网络参数的当前值。

相关申请的交叉引用

本申请主张在2017年3月17日提交的美国临时申请序列号62/473,264的优先权。该在先申请的公开内容被视为本申请的公开内容的一部分并且通过引用并入本申请的公开内容中。

技术领域

本说明书涉及训练神经网络并使用这样的网络执行任务。

背景技术

神经网络是利用非线性单元的一个或多个层来预测接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作到网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应的一组参数的当前值从接收到的输入生成输出。

发明内容

本说明书描述被实现为在一个或多个位置的一个或多个计算机上的计算机程序的系统，所述系统训练神经网络和/或使用经训练神经网络来使智能体执行任务或动作。

总体上，本说明书中描述的主题的一个创新性方面可以体现在训练神经网络的计算机实现的方法中。该神经网络具有多个网络参数并且被配置为接收表征环境的状态的输入观察并且处理输入观察以生成环境的状态的数字嵌套。所述包括：获得由第一模态捕获的第一观察；获得与第一观察一起发生并且由第二不同的模态捕获的第二观察；获得由第一模态捕获的不与第一观察一起发生的第三观察；确定三元组损失(triplet loss)的梯度，所述三元组损失使用第一观察作为锚点示例、使用第二观察作为正示例并且使用第三观察作为负示例；以及使用所述三元损失的梯度来更新所述网络参数的当前值。

本说明书中描述的主题可以以特定实施例被实现为取得一个或多个下述优点。以在本说明书中描述的方式训练的神经网络可以将由相同模态捕获的相似观察进行彼此区分。以在本说明书中描述的方式训练的神经网络可以生成对于某些变形(例如，视点、遮挡、运动模糊、照明、背景或对象实例)不变的数字嵌套。这样，由经训练神经网络生成的嵌套可以被用于改善需要对环境的状态进行准确表征的各种任务的执行。这样的任务理由可以由机器人智能体执行。这些任务的示例包括由机器人智能体进行的倾倒任务的分类阶段、理解操纵任务的时间阶段和由模仿人类动作。

本说明书的主题的一个或多个实施例的细节在附图和下面的描述中阐述。根据以下描述、附图和权利要求书，所述主题的其他特征、方面和优点将变得明了。

附图说明

图1示出被配置为训练时间对比(time-contrastive)神经网络的示例机器学习系统。

图2示出由两个不同模态捕获的示例观察三元组。

图3示出包括由三个模态捕获的锚点观察、正观察和负观察的示例观察三元组。

图4是用于训练时间对比神经网络的示例过程的流程图。

各附图中同样的参考数字和标记指示同样的要素。

具体实施方式

图1示出使用时间对比损失的梯度来训练时间对比神经网络102的示例机器学习系统100。机器学习系统100可以被实现为在一个或多个位置的一个或多个计算机上的计算机程序。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司，未经谷歌有限责任公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】