[发明专利]一种基于全卷积神经网络FCN的单目图像深度估计方法有效
申请号: | 201710649934.1 | 申请日: | 2017-08-02 |
公开(公告)号: | CN107578436B | 公开(公告)日: | 2020-06-12 |
发明(设计)人: | 朱沛贤;霍智勇 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06K9/62;G06N3/04 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 徐莹 |
地址: | 210000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 fcn 图像 深度 估计 方法 | ||
本发明公开了一种基于全卷积神经网络FCN的单目图像深度估计方法,包括步骤:获取训练图像数据;将训练图像数据输入全卷积神经网络FCN,池化层依次输出得到特征图像;及从最后一个池化层开始将其输出特征图像进行放大处理,获得与其前一池化层输出特征图像尺寸一致的特征图像并将二者的特征图像融合;从后向前依次对每个池化层的输出特征图像融合以获得最终预测深度图像;且训练中利用随机梯度下降法SGD对全卷积神经网络FCN中的参数训练;获取需要预测深度的RGB图像输入训练后的全卷积神经网络FCN,获得对应的预测深度图像。本发明可以改善卷积过程中输出图像分辨率较低的问题,且采用全卷积网络的形式,去除了全连接层,有效减少了网络的参数量。
技术领域
本发明涉及一种基于全卷积神经网络FCN的单目图像深度估计方法,属于计算机视觉的三维图像重建的技术领域。
背景技术
从二维图像中恢复三维深度信息是计算机视觉领域的一个重要问题,也是理解场景几何关系的重要组成部分。图像深度信息在机器人学,场景理解,三维重建等方面有着重要应用。图像深度信息的获取,旨在得到图像中不同对象间的空间位置信息。目前获取图像深度信息的方式主要有两种。一种是通过硬件设备直接获取深度信息,如Kinect。另一种广泛采用的方式是利用同一场景的单幅或者多幅RGB图像序列进行深度估计,包括多视点、双目和单视点。
单目图像深度估计,即基于单视点图像的深度估计,和传统的基于多视点以及双目立体匹配的方法不同,它只利用一个视点的视频序列和图像来进行深度估计。因为现实生活中绝大部分应用场景均提供单视点的数据,所以单目图像深度估计更贴近实际的应用需求。但由于单视点图像能提供的信息相对缺乏,因此单目图像深度估计是个比较困难的任务。目前,单目图像深度估计可大致分为两类:基于视觉线索和基于机器学习。
基于视觉线索的方法是受人类通过各种视觉线索来感知深度的启发而提出来的。常用的深度线索如运动、阴影、几何假设等。但是这类方法有严格的使用条件。如运动恢复结构(Structure From Motion,SFM),要求必须存在摄像机的运动;阴影恢复形状(Shapefrom shading)则要求物体表面具有同一分布的颜色和纹理;而利用盒子模型来推断出房间的空间布局的方法也由于其固有的约束,只能建模特定的场景结构而无法应用到一般的场景。
随着RGB-D图像数据能从激光或深度摄像机中容易获取后,以数据为驱动的基于机器学习的方法开始普及。由于这种算法不受特定的场景条件的限制,具有较好的适用性,因而得到了广泛的研究。Saxena A将深度估计表示成多尺度的马尔可夫随机场(MarkovRandom Filed,MRF)的有监督学习问题;Ladicky L提出了一个像素分类器来联合预测语义标签和深度信息,证明了联合二者可以促成彼此的效果;Liu M用超像素来建模图像区域,并提出离散连续优化的方法来进行深度估计;Zhuo W在Liu M的基础上通过整合中间层级区域和全局场景布局进行了改进。然而,这类方法多采用手工设计的特征,特征选取的优劣直接影响着模型结果的精度。
近年来,机器学习的分支——深度学习(Deep Learning)得到了快速发展,结合深度学习的单目图像深度估计方法开始得到关注。
Eigen D运用了一个两尺度的卷积网络(Global Coarse-Scale Network,LocalFine-Scale Network)分别整合图像全局和局部细节两方面来直接预测深度,但结果深度图像精度低,对细节方面表现较差。之后,Eigen D进行了改进,在原有网络基础上增加了另外一个尺度Higher Resolution,以此网络为结构基础,通过稍微的修改和损失函数的设计可以分别完成深度估计、表面法线、语义标签的任务,效果也有了较大提升;Li J在Eigen D的基础上改进了各尺度网络间的特征信息传递,通过加入跳转层来融合各尺度网络间的中间层特征图,并引入像素的相对深度限制,最终提高了结果深度图的精度。但基于多尺度网络的方法需要大量的训练数据,而且各尺度网络的联合训练收敛较慢。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710649934.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种洒水角度可调节的洒水车
- 下一篇:集热电污水处理于一体的洒水车