[发明专利]融合多尺度特征的无监督单目深度估计方法在审
申请号: | 202211514742.7 | 申请日: | 2022-11-29 |
公开(公告)号: | CN115760944A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 于翠红;韩成;张超;白志松 | 申请(专利权)人: | 长春理工大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50;G06N3/084;G06N3/088;G06T3/40;G06N3/048;G06N3/0464;G06V10/40;G06V10/80 |
代理公司: | 北京和鼎泰知识产权代理有限公司 11695 | 代理人: | 王琦 |
地址: | 130000 *** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 融合 尺度 特征 监督 深度 估计 方法 | ||
本发明属于计算机视觉技术领域,具体涉及一种融合多尺度特征的无监督单目深度估计方法,利用编码器结构提取二维平面图像的不同尺度特征信息,通过融合多尺度特征建立不同层级信息之间的交叉关联关系,解码器结构借助于多尺度特征的上下文信息即可预测出单目深度估计信息。本发明旨在改善无监督单目深度估计信息存在的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题,为了增强无监督单目深度估计方法的图像特征信息提取能力,使用空洞卷积扩大卷积核对二维平面图像的特征感受野,通过融合上下文信息使不同尺度空间的特征信息之间建立起紧密联系,有效地提升深度神经网络对特征信息的提取能力和理解能力。
技术领域
本发明属于计算机视觉技术领域,具体涉及一种融合多尺度特征的无监督单目深度估计方法。
背景技术
计算机视觉借助相机成像系统对生物视觉进行图像响应模拟,通过离线输入或实时采集图像信息来获取相应场景的二维视觉特征和三维空间信息。由于计算机视觉成像系统将三维空间信息映射为二维平面图像,使得三维空间信息的深度属性无法被体现于二维平面图像之中,从而导致三维空间信息的深度属性需要借助于其他间接信息得以表达。计算机视觉理解三维场景和空间关系通常以深度信息作为基础条件,深度信息直接反映了三维场景的几何表面形状以及三维结构特征,也就是说,深度信息的准确性必将直接影响计算机视觉对三维场景和空间关系的理解程度。正因如此,深度估计技术对三维重建、自主导航、视点绘制、人机交互、面部识别、场景理解等多个领域至关重要,利用单幅图像推断深度信息的单目深度估计成为了计算机视觉领域的重要研究课题。
最近几年,基于深度神经网络的计算机视觉任务取得了飞速发展,并已在图像分类、目标检测、语义分割、姿态估计、语音驱动、三维重建等科学方向表现出了极佳性能,与此同时,卷积神经网络(CNNs)、循环神经网络(RNNs)、变分自编码器(VAEs)、生成对抗网络(GANs)等多种网络结构已被证明它们对单目深度估计任务的有效性和鲁棒性。根据损失函数项的评测数据源和基准数据构建方式不同,单目深度估计主要划分为有监督单目深度估计方法、半监督单目深度估计方法、无监督单目深度估计方法。有监督单目深度估计方法将深度估计任务转换为回归预测问题,利用预测深度信息与真实深度信息之间的损失差异来监督神经网络训练,它决定了有监督单目深度估计方法需要使用具有真实深度信息的数据集才能进行模型参数训练,致使此类深度估计方法的适应场景和泛化能力受到了条件约束限定;半监督单目深度估计方法则利用稀疏深度信息或少量深度信息进行模型参数训练,此类深度估计方法虽然某种程度摆脱了真实深度信息的严苛束缚,但其依然需要与二维平面图像具有对应关系的真实深度信息作为训练数据。
鉴于有监督单目深度估计方法和半监督单目深度估计方法的数据集构造弊端,无监督单目深度估计方法将双目立体图像或帧序列图像的几何约束作为监督条件,根据深度信息预测生成图像与原始二维平面图像的纹理结构等建立损失差异,使得此类深度估计方法无需依赖真实深度信息即可监督模型参数训练。虽然多种无监督单目深度估计网络已经取得了较好的预期效果,但是它们会因连续卷积操作而导致尺度较小的低纹理区域出现特征缺失等现象,从而发生深度估计信息的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题,并且这些问题也会随着特征信息下采样结构的层级深度增加而逐渐变得突出。
发明内容
本发明目的在于提供一种融合多尺度特征的无监督单目深度估计方法,旨在改善无监督单目深度估计信息存在的虚假纹理、边缘模糊、深度串扰、细节丢失等精度问题。为了增强无监督单目深度估计方法的图像特征信息提取能力,本发明方法使用空洞卷积扩大卷积核对二维平面图像的特征感受野,通过融合上下文信息使不同尺度空间的特征信息之间建立起紧密联系,有效地提升深度神经网络对特征信息的提取能力和理解能力。
为了使无监督单目深度估计能够更好地适应于计算机视觉任务,不可避免地需要提升单目深度估计的精准度以及普适性,从而有利于计算机视觉任务更好地理解场景空间。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春理工大学,未经长春理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211514742.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:旋转靶材自动包装设备
- 下一篇:一种青贮玉米饲草大豆联合播种器