[发明专利]一种基于循环一致性的单目深度估计方法在审
申请号: | 202011484474.X | 申请日: | 2020-12-16 |
公开(公告)号: | CN112561980A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 王岩;雷泽宇;李沁 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06T7/593 | 分类号: | G06T7/593;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 北京慧泉知识产权代理有限公司 11232 | 代理人: | 李娜;王顺荣 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 循环 一致性 深度 估计 方法 | ||
本发明涉及一种基于循环一致性的单目深度估计方法。其包括,读取数据集里的图像对;将图像对输入提出的网络架构中获取重建视图;将图像对和重建视图代入损失函数中计算损失,分别以左右图像为起点,形成循环训练网络,交替训练模型;模型训练完成,保存参数,测试阶段预测深度值。所述的网络架构为循环一致性网络,分别为两个生成网络形成两条回路交叉进行训练,形成多对损失函数。与现有的技术相比,本发明能够利用更多图像对的信息,故具有精度高、鲁棒性强等优点。
技术领域
本发明涉及一种基于循环一致性的单目深度估计方法,可用于自动驾驶场景下的单目深度估计任务。
背景技术
从图像中预测深度值是自动驾驶场景理解领域的关键性问题之一。相比于传统基于特征点检测的方法,深度学习鲁棒性强、运行速度快等优点在这一领域显示出来强大的应用潜力。传统监督学习方法需要获取真实的深度值作为监督信息进行训练,而这些真实深度值往往很难获取、需要耗费大量的成本。
无监督学习方法的出现使得深度估计逐渐摆脱对真实深度值的依赖。这种方法往往利用网络进行视图重建来引入监督信息,通过不断缩小合成视图和原图之间的差距来训练网络收敛,较为典型的Garg等人在已发表的论文中,输入给网络左图利用网络估计左视差,通过左视差在右图上采样,得到合成的右视图与原右图形成损失,训练网络收敛。之后Godard等人在此基础上,利用网络同时估计左右视差,合成右左视图,为网络引入了更多监督信息,也提高了深度估计的精度。
然而,以上方法通过输入单一视图估计左右视差,另一视图作为监督信息。这种方式导致双目的图像只有单目视图作为输入,网络仅以单目图像估计左右视差,另一视图引入到网络的信息过少,所以获取的左右视差精度低。如何为网络引入更多的视图信息成为解决该问题的关键。
发明内容
本发明的技术解决问题是:克服现有技术网络获取的视图信息过少,提供一种基于循环一致性的单目深度估计方法。通过建立环形网络,分别以左右图为输入起始端,形成环形交替训练网络,为网络引入了更多信息,提高深度估计的精度。
本发明的技术方案是:一种基于循环一致性的单目深度估计方法,其实现步骤如下:
(1)分别读取数据集中的左右图像对L和R;
(2)以左图L为输入,以GLB为主干网络,获取右视差图dr,合成视图以右图R为输入,以GRL为主干网络,获取右视差图dl,合成视图
(3)分别计算合成视图和原图之间的损失,梯度反向传播,训练网络收敛。
(4)测试阶段输入单幅图像,获取视差值,根据视差与深度的关系计算深度值,其中为深度值,b为基线长,f为相机焦距,d为视差值。
所述步骤(2)具体实现如下:
所述的深度估计网络包括两个子网络,分别表示由左图合成右图的子网络GLR和由右图合成左图的子网络GRL,每个子网络都包含编码器和解码器两部分,编码器为GLR和GRL共享,而解码器为各自独有的。整体的深度估计网络结构基于U-Net构建,所述的解码器包括十二层卷积层,除了前两层卷积核大小为5*5外,其余均为3*3的卷积。
所述步骤(2)中,整体的深度估计网络采用交替训练方式,形成一个闭合的环形训练结构。如图2所示,GLR代表输入左视图,估计右视差,得到合成右视图的生成器1;GRL代表输入右视图,估计左视差,得到合成左视图的生成器2。整体的训练过程分为两个回路(分别对应实线和虚线回路),交叉进行。两个回路的具体训练过程如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011484474.X/2.html,转载请声明来源钻瓜专利网。