[发明专利]高分辨率单目2D视频到双目3D视频的转制方法有效
申请号: | 202011395559.0 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112543317B | 公开(公告)日: | 2022-07-12 |
发明(设计)人: | 姚莉;李林鑫;杨俊宴;吴含前 | 申请(专利权)人: | 东南大学 |
主分类号: | H04N13/261 | 分类号: | H04N13/261;H04N13/268;G06N3/04;G06K9/62;G06T3/40;G06T7/593;G06V10/774;G06V10/82 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 许小莉 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 高分辨率 视频 双目 转制 方法 | ||
1.一种高分辨率单目2D视频到双目3D视频的转制方法,其特征在于:所述方法包括以下步骤:
步骤1:从现有的3D电影中提取左右帧,采用SGBM算法从中提取和构建RGBD数据集;
步骤2:构建设计U型结构的卷积神经网络及特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛;
步骤3:从游戏引擎3D场景模型采集高精度深度图,经过预处理得到粗糙化的深度图FineCoarseDepth数据集,所述预处理包括扭曲、模糊化处理;
步骤4:构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛;
步骤5:将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图;
步骤6:将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图;
步骤7:进行无相机参数的虚拟视点合成,将中间视点的像素点反坐标变换到Z-Buffer空间,然后进行从Z-Buffer空间到虚拟左视点的投影变换,得到虚拟左视点;再执行从Z-Buffer空间到虚拟右视点的投影变换,得到虚拟右视点;
步骤8:采用结合时域的块匹配图像修复算法,对虚拟左视点和虚拟右视点进行空洞填充和修复;
步骤9:将修复后的虚拟左视点和虚拟右视点进行同帧合并,连续帧的双目视图经过视频合成与压缩,得到双目3D视频;
步骤2中所述构建设计U型结构的卷积神经网络,是指构建Encoder-Decoder式的U型结构的卷积神经网络,步骤2中所述构建设计特定的损失函数,在RGBD数据集上对深度估计网络进行训练至收敛,是指设计与图像分割结果相结合的损失函数进行训练,利用训练收敛的模型,从分辨率为1920*1080的高分辨率的2D视频帧画面中先提取出分辨率为512*288的低分辨率的深度图;
损失函数的设计如下所示:
其中:为对深度图中深度值的主要约束;为对深度图在不同语义区域之间的高频信息的尺度不变性的约束;和为对深度图在整体区域上的低频信息和平滑性的约束,称为一阶平滑误差,为二阶平滑误差;为对图像中特定的语义区域内深度值约束,α1、α2、α4、α4分别为上述四个损失项约束的系数超参数;
步骤5中所述将单目2D视频帧RGB图像输入步骤2中训练好的深度估计网络,输出得到低分辨率的深度图的具体方法是:
在网络训练过程中,促使网络的输出深度值与训练集中的Ground-Truth在数据的绝对值上趋于一致,采用在log域上计算深度值误差的方式,使其具有深度值的相对不变性;引入高频信息的约束项,促使深度图的高频变化与RGB原图一致;采用深度图的平滑性误差,促使深度值在整体上趋于平滑和稳定;引入图像分割的结果计算特定语义区域内的深度值误差,促使每个物体区域内深度值的准确性;
其中为对深度图中深度值的主要约束,令I为深度图,p为深度图上的一个像素点,N为该深度图中像素点的数量(518*288),为网络输出的深度图中的p点的深度值,Dgt(p)为数据集里真实的深度值Ground-Truth,R(p)定义为在log域上的与Dgt(p)之间的差值,则对深度图中深度值的主要约束的构成如下:
其中为对深度图在不同语义区域之间的高频信息的尺度不变性的约束,在网络训练过程中,促使网络的输出深度值在不同物体或其他语义区域之间呈现明显的差异,加强深度图的深度层次关系以及高频信息,对深度图在多个缩放尺度上计算其x方向和y方向的图像梯度误差;
令Is为特定尺度s下的深度图,p为其中的一个像素点,Ns为在特定尺度下图像的像素数量,Rs(p)即为在s尺度下计算的R(p),和分别为x和y方向的梯度计算,则的构成表示如下:
令Is为特定尺度s下的深度图,p为深度图上的一个像素点,Ns为该特定尺度下深度图中的像素数量,代表对深度图进行梯度误差计算其同时包含了x方向与y方向,为两个方向的梯度值之和,Is(p)表示p在深度图与2D视频画面对应的RGB图像的像素值,网络输出深度图中像素点的深度值,则一阶平滑误差和二阶平滑误差的构成分别如下,在中它们共享系数超参数α3:
其中为对深度图在特定语义区域之内的深度值的约束,在网络训练过程中,促使网络的输出深度值在特定的语义区域之内保有准确性和一致性,特定语义区域包含人体、动物、车辆和建筑物的语义目标;
利用MSCOCO上训练的Mask-RCNN卷积网络算法对2D视频帧进行图像分割,对其中各显著性区域进行标记和生成掩膜图mask,结合深度图对其特定区域进行深度值的L1误差计算:
令T为该帧画面中经图像分割后的特定语义区域的数量,Mk为特定语义区域的二值掩膜区域mask,每帧画面有T个掩膜区域,k为掩膜图的序号(从0到T-1),Mk即表示序号为k的掩膜区域,N表示该掩膜区域内的像素总数,*为二值掩膜图与网络输出深度图的逐像素之间的与运算,则的构成表示如下:
步骤4中所述构建设计U型结构的深度图优化网络及特定的损失函数,在步骤3的FineCoarseDepth数据集上对深度图优化网络进行训练至收敛,具体方法是:
构建用于深度图优化的卷积神经网络,设计基于L1误差的损失函数,利用FineDepth作为CoarseDepth的Ground-Truth的监督信息,对网络进行训练和调参,得到收敛后的模型,在网络底部输入低分辨率的深度图CoarseDepth,而在网络顶部输入的2D视频帧的RGB图像经过卷积层下采样,与其叠加进行引导,一同经过上采样层,网络输出上采样后的高分辨率的深度图,损失函数的构成表示如下:
其中为对深度值的直接约束,促使网络输出的高分辨率深度图中的深度值与输入的监督信息,即低分辨率深度图中的深度值Dgt(i,j))趋近,为多尺度的平滑性约束;β1、β2分别为和的系数超参数;
步骤6中所述将步骤5中得到的低分辨率深度图数据输入步骤4中训练好的深度图优化网络,输出得到高分辨率高质量的深度图的具体方法是:
对网络输出的深度图在多尺度上进行的梯度计算,促使输出的深度图在整体上平滑且细腻,和的构成表示如下:
其中i和j表示深度图中坐标(i,j)的像素点,表示网络输出的深度图中该像素点处的深度值,Dgt(i,j)表示Ground-Truth监督信息的深度图中该像素点处的深度值,其中深度图的梯度计算Gh[ξ],对其在不同尺度下的计算规则进行统一,表示如下:
其中h为尺度因子,分别表示跨越{1,2,4,8,16}个像素进行梯度计算,D(i,j)表示深度图中的像素值,其既是网络输出的深度图,也是Ground-Truth监督信息的深度图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011395559.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种具有收紧机构的打包机
- 下一篇:一种基于乘用车行程起终点的空间定位方法