[发明专利]单目图像深度估计方法及装置有效
申请号: | 201910800196.5 | 申请日: | 2019-08-28 |
公开(公告)号: | CN110610486B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 戴琼海;郝敏升;李一鹏 | 申请(专利权)人: | 清华大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/50 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王艳斌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图像 深度 估计 方法 装置 | ||
本发明公开了一种单目图像深度估计方法及装置,其中,该方法包括:获取单目视频序列,通过SLAM算法对单目视频序列进行处理生成关键帧稀疏特征点深度信息;根据关键帧稀疏特征点深度信息和单目视频序列构建训练集;构建端对端网络模型;对关键帧稀疏特征点深度信息进行恢复生成深度图,根据深度图及深度图对应的深度点计算几何误差,根据几何误差、相似性误差及深度图光滑度构造损失函数;根据训练集和损失函数对端对端网络模型进行训练,生成单目图像深度估计模型,通过单目图像深度估计模型对单目图像的深度信息进行估计。该方法通过SLAM系统得到的深度信息作为弱监督信息并基于此训练网络模型,提高了CNN输出深度图的准确度。
技术领域
本发明涉及图像深度估计技术领域,特别涉及一种单目图像深度估计方法及装置。
背景技术
如何从图像中恢复出场景的三维信息是计算机视觉的研究热点与难点,而图像中物体的深度信息会对三维重建提供极大的帮助,因此通过平面图像估计深度对三维重建有很重要的意义,除此之外,对AR,导航,语义分割,3D bounding box也有很大的帮助。
目前对场景信息的获取大多依靠特定的硬件设备,如激光雷达、RGB-D相机和双目相机。Velodyne公司的激光雷达测距能力强,精度高鲁棒性高,能在任何光线条件下测距,但价格高昂,使得无法广泛普及。而RGB-D相机如Microsoft公司的Kinect相机,Intel公司的RealSense等等能够同时得到图像数据与深度数据,但容易受到光线影响,测距距离较短,以Microsoft公司的Kinect相机为例,最远只能检测到5米。RGB-D相机适用于室内条件下的深度感知,无法在室外得到较好的深度数据。双目相机通过匹配左右图像的特征点,根据对应的特征点和左右相机的位置关系,通过计算得到稀疏的深度信息,但使用前需要进行标定,同时因为算法复杂,所以在应用上会有很多限制。
除了直接获取深度信息外,通过多视角图像或视频序列也可以获取周围场景的深度信息。基于多视图图像是通过相机阵列对深度进行采集,通过多视点图像之间的对应关系进行深度估计,但是相机阵列配置麻烦,成本高,应用范围小。基于视频序列的深度感知具有代表性的就是视觉SLAM技术。视觉SLAM技术根据使用的设备不同,又可以分为RGB-D、双目和单目视觉SLAM技术。RGB-D和双目SLAM技术优缺点受制于设备。单目视觉SLAM技术通过使用相机作为传感器,通过提取特征点,匹配相邻两帧图像,构建视觉里程计,使用具有稀疏性的非线性优化理论(Bundle Adjustment)进行优化,能够使用实时算法对相机的位姿进行追踪,同时构建环境地图。
随着深度学习技术的成熟,在诸多领域都有较好的突破,将其引入视觉领域,用于解决传统算法无法攻克的难题。近两年来,使用机器学习方法来对图像和视频进行分析,通过深度学习获取深度信息等研究越来越受到重视,具有很大的开发潜力。这种方法非常类似于人类的视觉系统——利用先验知识进行深度的感知,具体方法是通过大量的数据训练网络模型,让网络进行学习。训练完成后,就可以通过图像预测深度。同时通过深度学习获取的深度信息是唯一能够得到稠密的深度图方法。2014年,Eigen等人首次使用了端对端的网络模型,通过计算估计出深度与真实深度的差值,采用有监督的方法训练网络,直接获得输入图像的深度图像。2017年,Zhou Tinghui首次提出了通过无监督的方法训练网络:根据估计出的深度图像与相机姿态将当前图像投影到时间上相邻的图像中,对投影图像与源图像差值进行回归,从而训练网络。但是无监督方法相比监督方法在最终效果上稍差。
目前,通过深度学习估计单目深度的方法大多都直接将深度或图像数据作为数据集输入网络进行训练,没有很好地与传统方法进行结合,导致浪费了部分信息。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种单目图像深度估计方法,该方法通过SLAM系统得到的深度信息作为弱监督信息并基于此训练网络模型,提高了CNN输出深度图的准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910800196.5/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序