[发明专利]一种基于深度学习的稳定单目视频深度估计方法有效
申请号: | 202110695235.7 | 申请日: | 2021-06-23 |
公开(公告)号: | CN113379821B | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 肖春霞;罗飞;魏林 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 齐晨涵 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 稳定 目视 估计 方法 | ||
1.一种基于深度学习的稳定单目视频深度估计方法,其特征在于:
首先,把单张的彩色图片输入到深度估计网络进行深度估计,再将两张连续视频帧输入到相机位姿估计网络中进行相对的相机位姿估计;结合深度估计网络输出的深度信息和相机位姿网络输出的相机位姿信息,进行图像重建;所述两张连续视频帧均为深度估计中所涉及的图片;
其中,构建损失函数解决连续视频帧深度估计不稳定问题,具体定义如下:
Lgs=|Sa-Sb|,
Sa=median(Da),
其中Lgs代表时序平滑损失函数项,对于两张连续的视频帧Ia、Ib,Da、Db代表Ia和Ib的深度估计结果,Sa和Sb则是前后连续视频帧的时序平滑项,median表示取中值操作;
Lgs对前后相邻的两幅深度图在全局上进行了约束,再利用如下损失对深度图的局部进行约束,具体的公式如下:
D′=D/S
D′是深度图D去时序平滑后的深度图,D′t-s(p)是由目标视图的去时序平滑后的深度图Dt′结合相机位姿合成的源视图视角下的深度图,Ds′(p)是源视图的深度图Ds进行采样后的深度图,对于深度图中每个点p计算二者的差值,逐像素的相邻视频帧的深度图进行约束,保证相邻前后帧深度图之间保持一致。
2.根据权利要求1所述的基于深度学习的稳定单目视频深度估计方法,其特征在于:
对动态物体的视图合成损失进行约束,以处理视图合成时违反静态场景假设的动态物体的深度估计不准确的问题,具体的做法如下:
对于前后相邻的两视图Ia、Ib,在得到深度估计网络输出的深度信息和相机位姿估计网络输出的相机位姿之后由视图Ib进行视图合成得到在视图Ia视角下的合成图片Ia′,然后计算原视图与合成视图之间的灰度差,也即视图合成损失Pdaa′,同样也可以得到Pdbb′;得到前帧到后帧的视图合成损失以及后帧到前帧的视图合成损失之后计算得到mask M。
3.根据权利要求2所述的基于深度学习的稳定单目视频深度估计方法,其特征在于:采用深度学习框架是pytorch环境,torch的版本为1.0.1以上。
4.根据权利要求2所述的基于深度学习的稳定单目视频深度估计方法,其特征在于:所述网络基于ResNet构建。
5.根据权利要求2所述的基于深度学习的稳定单目视频深度估计方法,其特征在于:在每个epoch训练完成之后,会对训练到当前epoch为止的模型进行测试,结合评价指标对当前模型训练的效果进行评估;在完整的训练完成之后,要结合测试集,对完整的模型训练结果进行评估,然后调整模型的参数继续进行训练,以达到最好的训练结果。
6.根据权利要求5所述基于深度学习的稳定单目视频深度估计方法,其特征在于:评估指标主要包括均方根误差、对数均方根误差、绝对相对误差、平方相对误差和精确度。
7.根据权利要求2所述的基于深度学习的稳定单目视频深度估计方法,其特征在于:
所述图像重建,重建函数如下:
Lp=∑s||pe(It-Is-t)||1,
Is-t=IsKTt-sDtK-1,
其中It表示要进行深度估计的目标视频帧,Is-t表示由相邻的源视频帧Is结合相机内参K、源视图到目标视图相机位姿Tt-s、目标视图深度图Dt合成的合成目标视图帧,pe表示视图合成损失;具体视图合成损失函数如下:
其中α、β是超参数,这里分别设置为0.15、0.85,SSIM是结构相似性函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110695235.7/1.html,转载请声明来源钻瓜专利网。