[发明专利]面向多视角视觉系统的深度估计方法、电子设备及介质在审
申请号: | 202211041764.6 | 申请日: | 2022-08-29 |
公开(公告)号: | CN115311168A | 公开(公告)日: | 2022-11-08 |
发明(设计)人: | 李恒宇;许晓俊;刘靖逸;谢永浩;王曰英;谢少荣;罗均 | 申请(专利权)人: | 上海大学 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G06T3/40;G06N3/04;G06N3/08 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 万慧华 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 视角 视觉 系统 深度 估计 方法 电子设备 介质 | ||
1.一种面向多视角视觉系统的深度估计方法,其特征在于,包括:
获取经过修复的目标视角图像和辅助视角图像;
将所述目标视角图像和所述辅助视角图像输入至面向多视角图像修复的深度估计模型中,得到视差图;所述视差图用于估计场景深度值;
所述面向多视角图像修复的深度估计模型包括基于可变形卷积和空洞金字塔卷积的特征提取模块、基于多尺度结构的匹配代价计算模块、基于自注意力机制的多尺度代价聚合模块以及视差回归操作模块。
2.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基于可变形卷积和空洞金字塔卷积的特征提取模块为U型网络结构;所述U型网络结构的主干部分为编码器-解码器结构;
所述编码器-解码器结构包括依次连接的编码器、连接层以及解码器;
所述编码器包括多个编码层,所述解码器包括多个解码层,且每个所述编码层和所述解码层均嵌入有与可变形卷积结合的残差模块;所述连接层嵌入有膨胀率递增的空间金字塔卷积。
3.根据权利要求2所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述编码器用于对所述目标视角图像和所述辅助视角图像进行处理,得到编码器输出结果;
所述连接层用于采用膨胀率递增的空间金字塔卷积对所述编码器输出结果并行处理,并将并行处理后得到的不同支路的输出结果沿通道方向进行拼接融合,得到融合结果;
所述解码器用于对所述融合结果进行处理,得到不同分辨率的目标视角特征图和辅助视角特征图。
4.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基于多尺度结构的匹配代价计算模块,用于将所述基于可变形卷积和空洞金字塔卷积的特征提取模块输出的多对特征图分别进行初始匹配代价计算,得到多个初始匹配代价体;
所述初始匹配代价体的个数与所述特征图的对数相同,且每对所述特征图均包括目标视角特征图以及所述目标视角特征图对应的辅助视角特征图;其中,不同对的特征图对应不同的分辨率,不同的所述初始匹配代价体对应不同的尺度。
5.根据权利要求4所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述初始匹配代价体的计算过程为:
当搜索的视差k为0时,将所述目标视角特征图以及对应的所述辅助视角特征图逐通道进行对应元素相乘,构建视差为0的单视差代价体;
当搜索的视差k大于0且小于最大视差值时,将所述目标视角特征图在宽度方向上的像素与所述目标视角特征图对应的所述辅助视角特征图在宽度方向上的像素的相似性,并基于所述相似性构建视差为k的单视差代价体;
将不同视差的单视差代价体组合,得到初始匹配代价体。
6.根据权利要求1所述的一种面向多视角视觉系统的深度估计方法,其特征在于,所述基于自注意力机制的多尺度代价聚合模块用于对所述基于多尺度结构的匹配代价计算模块输出的不同尺度的初始匹配代价体进行代价聚合操作,得到多个聚合代价体特征图;
所述基于自注意力机制的多尺度代价聚合模块至少包括三个分支,其中,第一分支和第二分支均包括依次连接的编码器、自注意力机制模块以及解码器,第三分支包括依次连接的编码器和解码器;
所述编码器由步长为2的堆叠的残差3D卷积模块串联而成;所述解码器由上采样率为2的堆叠的3D转置卷积串联而成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211041764.6/1.html,转载请声明来源钻瓜专利网。