[发明专利]图像深度和自我运动预测神经网络的无监督学习在审
申请号: | 201880074141.4 | 申请日: | 2018-11-15 |
公开(公告)号: | CN111386550A | 公开(公告)日: | 2020-07-07 |
发明(设计)人: | A.安杰洛瓦;M.威克;R.马朱利安 | 申请(专利权)人: | 谷歌有限责任公司 |
主分类号: | G06T7/20 | 分类号: | G06T7/20;G06T7/579 |
代理公司: | 北京市柳沈律师事务所 11105 | 代理人: | 金玉洁 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 深度 自我 运动 预测 神经网络 监督 学习 | ||
一种系统包括由一个或多个计算机实现的神经网络,其中神经网络包括图像深度预测神经网络和相机运动估计神经网络。神经网络被配置为接收图像序列。神经网络被配置为使用图像深度预测神经网络来处理图像序列中的每个图像,以为每个图像生成表征图像的深度的相应深度输出,并且使用相机运动估计神经网络来处理图像序列中的图像子集,以生成表征子集中的图像之间的相机的运动的相机的运动输出。已经使用无监督学习技术联合训练了图像深度预测神经网络和相机运动估计神经网络。
相关申请的交叉引用
本申请要求2017年11月15日提交的序列号62/586,611的美国临时申请的优先权。在先申请的公开被视为本申请的公开的部分,并通过引用结合于本申请的公开中。
背景技术
本说明书涉及使用神经网络处理图像。
机器学习模型接收输入并基于接收到的输入生成输出,例如预测输出。一些机器学习模型是参数模型,并且基于接收到的输入和模型的参数值生成输出。
一些机器学习模型是深度模型,深度模型采用多层模型来为接收到的输入生成输出。例如,深度神经网络是深度机器学习模型,其包括输出层和一个或多个隐藏层,每个隐藏层对接收到的输入应用非线性变换以生成输出。
发明内容
一般,本说明书中描述的主题的一个创新方面可以体现在包括由一个或多个计算机实现的神经网络的系统中。神经网络包括图像深度预测神经网络和相机运动估计神经网络。神经网络被配置为接收图像序列。神经网络被配置为使用图像深度预测神经网络来处理图像序列中的每个图像,以为每个图像生成(i)表征图像的深度的相应深度输出。神经网络被配置为使用相机运动估计神经网络来处理图像序列中的图像子集,以生成表征该子集中的图像之间的相机的运动的相机运动输出。已经使用无监督学习技术联合训练了图像深度预测神经网络和相机运动估计神经网络。
前述和其他实施例中的每个可选地包括单独的或组合的以下特征中一个或多个。图像序列可以是由相机捕获的视频帧。深度输出可以包括图像中多个像素的每个像素的估计深度值,该估计深度值表示在该像素处描绘的场景距图像的焦平面的相应距离。相机运动输出可以是变换矩阵,该变换矩阵将相机的位置和朝向从拍摄子集中的第一图像时的视点变换到拍摄子集中的第二图像时的视点。图像深度预测神经网络可以包括卷积神经网络层。相机运动估计神经网络可以包括卷积神经网络层。图像子集可以包括图像序列中的两个图像。图像子集可以包括图像序列中的三个或更多个图像。无监督学习技术可以包括下面描述的关于训练神经网络的方法的操作。
本说明书中描述的主题的另一创新方面可以体现在编码有指令的一个或多个计算机存储介质中,当指令由一个或多个计算机执行时,该指令使得一个或多个计算机实现上述系统。
本说明书中描述的主题的另一创新方面可以体现在训练上述系统的神经网络的方法中。该方法包括:获得包括图像序列的训练数据,并对图像序列中的每个特定图像执行以下操作。
对于序列中的每个特定图像,该方法包括使用图像深度预测神经网络处理该特定图像,以生成表征该特定图像的第一深度的第一深度估计;使用深度预测神经网络处理序列中特定图像之后的第二图像,以生成表征第二图像的第二深度的第二深度估计;使用相机运动估计神经网络处理特定图像和第二图像,以生成第一变换矩阵,该第一变换矩阵将相机的位置和朝向从拍摄特定图像时的视点变换到拍摄第二图像时的视点;以及基于第一深度估计、第二深度估计和第一变换矩阵,反向传播损失函数的梯度估计,以联合调整深度预测神经网络和相机运动估计神经网络的参数的当前值。
前述和其他实施例中的每个可选地包括单独的或组合的以下特征中的一个或多个。
损失函数可以包括基于3D的点云对准损失分量,其最小化从特定图像和第二图像生成的两个点云之间的点到点距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880074141.4/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序