[发明专利]一种基于双目视觉的单目视频深度估计方法有效
申请号: | 202010498627.X | 申请日: | 2020-06-04 |
公开(公告)号: | CN111652922B | 公开(公告)日: | 2023-09-08 |
发明(设计)人: | 姚莉;汤建军 | 申请(专利权)人: | 江苏天宏机械工业有限公司 |
主分类号: | G06T7/55 | 分类号: | G06T7/55 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 徐航天 |
地址: | 212325 江苏省镇*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双目 视觉 目视 深度 估计 方法 | ||
本发明公开一种基于双目视觉的单目视频深度估计方法,包括以下步骤:S1,视图合成部分:利用双目数据集去训练得到数据集中双目视图之间像素点的对应关系;基于双目数据集的视差,利用输入的单目视图进行另一视点的视图估计,得到双目视图;S2,双目匹配部分:利用S1中所得的双目视图进行视差的估计,根据视差结果计算出像素的深度值;通过编码解码结构保证整体网络结构的稳定性。本发明还公开一种基于双目视觉的单目视频深度估计系统,包括视图合成网络、双目匹配网络。
技术领域
本发明属于图像处理领域,尤其涉及一种单目深度估计技术。
背景技术
深度估计是理解场景内部几何关系的一个重要组成部分。从二维图片中估计深度是场景的重建和理解、三维目标识别、分割和检测等任务的关键步骤。目前,在获取图像时通常只会保存图像的二维信息,丢失场景的三维信息。深度估计可以用于三维建模、场景理解、深度感知等领域。随着虚拟现实,自动驾驶,3D电影等应用场景的不断普及,技术上对三维层面信息的需求越来越强烈。在单目深度估计上仍然存在很多问题,深度真值获取困难、成本昂贵;单幅图像的特征有限,特征的局限性增加了训练的难度。现有单目深度估计方法存在以下几个问题:
(1)依赖于大量的原始深度信息;
(2)对于单目来说,仅使用有限的图像信息对深度信息进行监督,缺少几何约束,深度估计结果存在偏差;
(3)单幅图像的深度估计缺少帧间的平滑效果。
发明内容
本发明的目的是为解决单目深度对于大量深度信息的依赖,在单目视图有限特征图的条件下进行更为准确的深度估计,以及一般大幅图像深度估计无法做到的帧间平滑的问题。
为达到上述目的,本发明采用的技术方案为:一种基于双目视觉的单目视频深度估计方法,包括以下步骤:
(1)视图合成部分。双目数据集为包括两个位置相对固定的单目相机拍摄得到的成对视图的集合。利用双目数据集去训练得到双目视图之间每个像素点的对应关系,训练所得模型能够基于双目数据集的视差,利用输入的单目视图进行另一视点的视图估计,最终得到双目视图。
(2)双目匹配部分。利用(1)中所得的双目视图的输出进行视差的估计,根据视差结果计算出像素的深度值;通过编码解码结构保证上采样后的特征不会偏离,即与输入保持一定的关系。在编码解码结构过程中,使用下采样中的特征对上采样的特征进行监督,保证整体网络结构的稳定性。
进一步的,步骤(1)中的方法通过以下子步骤来实现:
(1.1)根据用于训练的双目数据集设定训练的视差范围,利用卷积网络获取图像的特征图,并将不同层级的特征图经过反卷积操作恢复到与原图一致的大小,最后使用concat操作将各层级的特征图结合到一起,得到一个概率分布图;将各个层级的特征通过反卷积恢复到同一尺度进行视图的估计,在使用高层级全局语义的同时,也保留了图像中的细节特征,保证了该方法对于图像整体估计的准确度。
对单目视频深度估计结构的检验与训练,进一步的在步骤(1)中的方法中包括以下步骤:(1.2)将(1.1)中所得的特征图用于损失的估计,根据预先定义的视差范围利用损失函数进行监督,另一个视点各像素点的表示如其中是原视点作了大小为d的偏移操作,是不同视差值上的每个像素的概率分布图,损失函数loss=|R-S|,其中S为另一个视点的真实值。
进一步的,步骤(2)中的双目匹配方法通以过下子步骤来实现:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏天宏机械工业有限公司,未经江苏天宏机械工业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010498627.X/2.html,转载请声明来源钻瓜专利网。