[发明专利]一种基于深度辅助全分辨率网络的新视点图像合成方法在审
申请号: | 201810189645.2 | 申请日: | 2018-03-08 |
公开(公告)号: | CN108416751A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 全分辨率 合成 解码器 局部特征 视点图像 输入图像 网络 图像 局部图像特征 输入分辨率 大型图像 目标图像 全局图像 深度预测 视点位置 损失函数 特征转换 指示目标 编码器 扭曲场 深度图 数据集 双通道 分辨率 伪影 映射 变形 探测 模糊 | ||
1.一种基于深度辅助全分辨率网络的新视点图像合成方法,其特征在于,主要包括深度辅助全分辨率网络(一);损失函数(二);训练(三)。
2.基于权利要求书1所述的深度辅助全分辨率网络(一),其特征在于,全分辨率网络的编码器部分从输入图像中提取重要的局部特征;然后深度预测器通过探测全局图像信息后在大型图像数据集上预先训练,从而估计输入图像的深度图;接着将局部特征和深度馈送到解码器,并指示目标视点位置的双通道映射;最后基于流的变形,解码器将组合的特征转换成扭曲场来合成最终的目标图像。
3.基于权利要求书2所述的编码器,其特征在于,编码器用于提取输入图像的局部特征;编码器网络是一系列具有不同大小的卷积核,生成与输入图像具有相同分辨率的特征;修正线性单位(ReLU)层被添加在每个卷积层之后;这些特征将用于重建最终转换后的图像。
4.基于权利要求书2所述的估计输入图像的深度图,其特征在于,将估计的预测相对深度添加为输入图像的一个特征;根据一幅图像上像素对的标记深度排序来训练深度预测网络,输出表示输入图像的相对深度;利用从图片分享网站收集并与两个随机像素的相对深度排序标记的421000个图像来训练网络;由于缺少后向训练的标定真实深度,因此只能利用这个网络的前向输出来提取输入图像的深度。
5.基于权利要求书4所述的特征,其特征在于,使用该深度特征有四个主要优点:首先,深度是流场的一个紧密相关的特征;输入图像与新视图之间的深度z和视差D之间的关系可写为:
其中,B是两个视点之间的绝对距离,f是焦点;新视图q的视差Dq与流场Fq之间也存在明确的关系:
Fq(s)=(Dq(s)×Δu,Dq(s)×Δv) (2)
其中,Δu和Δv分别是u和v方向上视点坐标的差异;根据公式(1)和(2),深度信息对估计流场非常重要;
其次,与其他方法相比,预测图像的相对深度可以给出更清晰的对象之间的相对位置关系;
第三,用于预测深度的网络已经通过两个距离较远的像素的信息(深度顺序)进行训练,所以本网络通过涉及深度隐含地考虑了大的感知场;由于全分辨率网络保留了局部特征,因此通过收集局部和全局信息进行最终综合;
最后,用于训练深度预测器的数据集非常大,并且覆盖了大量的自然场景;
除了作为编码器部分末端的特征层连接到网络的深度图像之外,新视图的二维坐标(u,v)也被添加为具有与输入图像相同尺寸的两个层特征;这是为了将目标的视点信息提供给网络。
6.基于权利要求书2所述的解码器,其特征在于,这部分的网络估计所有像素的密集流;在使用后向插值方法时,流场也用于处理输入中不可见的遮挡区域;该解码器部分的网络包含四个卷积层,前三个是ReLU层,后一个是Tanh层。
7.基于权利要求书2所述的基于流的变形,其特征在于,遵循外观流和空间变换网络的思想,应用基于流的变形方法来合成最终的图像;预测流场和新视图图像之间存在明确的数学关系;对于一个新颖视图图像中的每个像素s,其像素值可以表示为:
Iq(s)=Ip[s+Fq(s)] (3)
其中,Fq(s)是神经网络输出的二维流;这里,由于在目标视图上的像素s处定义了流,所以利用反向变形将输入图像转换为新视图;由于公式(3)中描述的变形函数是可微分的,并且可以有效地计算梯度,所以网络的所有层都是可微的,并且可以以监督的方式端到端地训练整个网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810189645.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种图像恢复方法
- 下一篇:一种基于生成式对抗网络进行图像去运动模糊的方法