[发明专利]用未标记成对图像训练神经网络以得出对象视角的方法及系统在审
申请号: | 202110954541.8 | 申请日: | 2021-08-19 |
公开(公告)号: | CN114078155A | 公开(公告)日: | 2022-02-22 |
发明(设计)人: | 斯文·迈尔;奥克塔夫·马里奥蒂;哈坎·比伦 | 申请(专利权)人: | 丰田自动车株式会社;爱丁堡大学董事会 |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06N3/04;G06N3/08 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 万柳军;段承恩 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标记 成对 图像 训练 神经网络 得出 对象 视角 方法 系统 | ||
本发明涉及用未标记成对图像训练神经网络以得出对象视角的方法及系统。所述方法包括使以下差距最小化:对于第一集合的训练图像中的每个训练图像,神经网络的输出与该训练图像的视角之间的差距;对于第二集合的训练图像对中的每对训练图像,所述第二集合的训练图像对中的每对训练图像中的第二图像与发生以下情况时解码器神经网络的输出之间的差距:该对训练图像中的第一图像被输入到编码器神经网络,该对训练图像中的第二图像被输入到神经网络以获得视角,根据该视角使所获得的编码图像旋转,对旋转编码图像进行解码。
技术领域
本公开涉及使用神经网络进行数据处理的领域,例如使用神经网络进行图像处理。更确切地说,本公开涉及能够检测在图像上可见的对象的视角/视点的神经网络。
背景技术
已经提出通过使用在计算机系统上实现的神经网络来检测由相机/摄像机获取的图像上的三维对象。通常,还期望也获得与图像上可见的对象的6D姿态有关的信息。“6D姿态”是本领域技术人员公知的、表示对象的三维位置和三维取向/方位的组合的一种表达。获得6D姿态在机器人领域中特别有用,其中对象被检测和操纵。确定驾驶场景中的对象的取向以允许自主或部分自主驾驶也是有用的。
图像上可见的对象的视角是与期望的6D姿态有关的一种这样的信息。视角可以被定义为对象相对于用于获取图像的相机的方位角、仰角和面内旋转(in-plane rotation)。神经网络也已经用于自动确定图像上可见的对象的视角。
为了获得执行自动确定图像上可见的对象的视角的任务的神经网络,必须执行神经网络的训练阶段。通常使用带标记(有标签,被标注)的训练图像集来执行该训练阶段。“带标记”是指为训练图像集中的每个图像都提供了感兴趣对象的视角;所提供的视角被称为真值(真实数据,ground truth)。然后,训练在于将来自训练集的图像输入到神经网络,将神经网络的输出与对应的真值进行比较,并且基于该比较来适配神经网络的参数(例如使用公知的随机梯度法)。
如本领域所公知的,需要大量的带标记的训练图像来获得神经网络的良好训练。大规模的带标记的数据集已经成为计算机视觉任务中最新进展的重要驱动力。然而,给数据加注释是昂贵的(即,耗时的),并且无法扩展至复杂视觉概念的增长主体。实际上,获得真值/标记通常涉及使用专用硬件、受控环境及操作者手动地将3D CAS模型与真实世界对象匹配起来。
虽然从现有技术中已知使用带标记的数据集来训练神经网络以检测对象的视角,但是如何使用未标记的数据仍然不清楚。然而,由于未标记的数据便宜且更易于获得,因此期望使用未标记的数据。
已经提出(例如见文献“Multi-view object class detection with a 3dgeometric model(利用3D几何模型的多视图对象类检测)”,Liebelt,J.,Schmid,C.,2010年IEEE关于计算机视觉和模式识别的计算机学会会议,1688-1695页.IEEE(2010))对对象在不同视角下的3D CAD图像进行渲染来训练神经网络(因此对于渲染而言真值是已知的)。虽然可以利用渲染和模拟器工具生成大量带标记的合成数据并用它们来学习视角估计器,但是合成图像与真实世界图像之间的差异使它们的转移具有挑战性。因此,在文献“Renderfor cnn:Viewpoint estimation in images using cnns trained with rendered 3dmodel view(用于卷积神经网络的渲染:使用以渲染的3d模型视图训练的卷积神经网络在图像中进行视角估计)”(Su,H.,Qi,C.R.,Li,Y.,Guibas,L.J.,IEEE计算机视觉国际会议论文集,2686-2694页(2015))中已提出将来自大型3D模型集合的渲染图像覆盖在真实图像之上,并且当在训练期间使用这些图像时,这种方法产生逼真的训练图像,并改进视角的检测。然而,这种解决方案需要存在3D模型和背景场景的大量集合,这也是一个困难。
在多个文献中还提出了在称作自监督或无监督的过程中使用未标记的图像。在这些过程中,利用来自未标记图像的信息来改进神经网络的训练以检测视角或姿势。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于丰田自动车株式会社;爱丁堡大学董事会,未经丰田自动车株式会社;爱丁堡大学董事会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110954541.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电气操纵的阀
- 下一篇:激光加工装置及激光加工方法
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序