[发明专利]一种基于小波的细节增强无监督深度估计方法有效
申请号: | 202110321996.6 | 申请日: | 2021-03-25 |
公开(公告)号: | CN112991450B | 公开(公告)日: | 2022-11-01 |
发明(设计)人: | 肖春霞;罗飞;郑旭辉 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/269;G06T3/40;G06T5/10;G06T5/20;G06N3/08 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 齐晨涵 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 细节 增强 监督 深度 估计 方法 | ||
1.一种基于小波的细节增强无监督深度估计方法,其特征在于,包括以下步骤:
步骤S1:利用图像的小波分解,将输入的单幅图像分解成一个低频和三个高频的子带,并对低频进行进一步的分解,得到多级的小波分解的高低频子带;
步骤S2:将图像输入到深度估计网络中,并且将步骤S1中得到的高频子带整合到网络的解码器中,得到图像的深度图;
步骤S3:将视频中的前后两帧输入到位姿估计网络中,估算出对应的相机位姿;
步骤S4:将步骤S3中输入的前后帧图像输入到光流网络中,估算前后帧的光流,生成图像遮挡区域的遮罩;步骤S4的具体过程如下:在网络框架中中加上一个光流估计网络,生成光流,同时处理像素遮挡,遮罩用于损失计算中处理遮挡像素;
其中,网络的输入:视频帧的前后两帧,首先将网络输入到光流估计的网络编码器中,编码器部分有6层卷积层,最后分别得到两帧图像对应的特征f1,f2;然后对得到的特征计算一个相关系数,具体公式为:c(x1,x2)=∑o∈[-k,k]×[-k,k]<f1(x1+o),f2(x2+o)>,其中,f1,f2是两张特征图,比较的是在f1以x1为中心,在f2以x2为中心,以k为大小的图像块,通过计算两个特征图中所有的图像块的相关系数得到全局的相关系数;
网络的解码器部分输入是之前计算的相关系数,解码器部分一共有6个卷积层,通过6次上采样得到原图尺寸大小的光流和遮罩,每个卷积层都会生成一个光流估计的结果和一个遮罩,并且经过上采样之后输入到下一层中,解码器的每一层输入之前都会计算一次相关系数,除了第一层外,后面的每一层在计算相关系数的时候都会结合光流做一次变形卷积并且乘上遮罩,最后得到的遮罩做一个二值化处理,用于去掉图像重建中的遮挡区域;
步骤S5:利用当前帧图像以及步骤S2得到的图像的深度图和步骤S3得到的相机位姿,并通过双线性插值的方式合成目标帧的图像;
步骤S6:利用步骤S5得到的合成图像与原图像,以及步骤S4得到的遮罩计算损失,通过反向传播的方式训练网络;
步骤S7:步骤S6经过多次的迭代完成对网络的训练,将单幅图片输入到训练好的网络中得到对应的深度图。
2.根据权利要求1所述的方法,其特征在于:
所述步骤S1中低频子带包含图像的内容信息,高频子带包含图像的水平、垂直和对角线信息。
3.根据权利要求2所述的方法,其特征在于:
步骤S1中的多级分解为6级,分解过程中将图像的尺寸降低为分解前的尺寸的一半,网络的解码器部分对网络的特征进行上采样,将图像进行6级分解后,得到的6级特征与网络的尺寸刚好与解码器部分的特征相同。
4.根据权利要求3所述的方法,其特征在于:
步骤S6中,通过网络估计出来的深度图、相机位姿和当前帧图像合成目标帧图像,合成图像与原图计算损失后以达到网络训练的目标;
具体的,利用Structure from Motion(运动恢复结构)的理论合成目标帧图像,具体公式如下:
It0→t1~KTt0→t1DtK-1It0
其中,It0→t1表示合成的目标帧图像,It0表示当前帧图像,K表示相机的内参,Tt0→t1表示从当前帧到目标帧的相机位姿,Dt表示It0对应的深度图。
5.根据权利要求1所述的方法,其特征在于:
本方案计算了三项损失,分别为重投影损失、梯度损失和小波高频损失;计算损失时,利用步骤S4得到的遮罩做处理排除遮挡像素点造成的误差。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110321996.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于防雷检测能力考核的防雷装置和模拟建筑
- 下一篇:真空断路器驱动保护电路