[发明专利]基于注意力机制的无监督单目深度估计方法有效

申请号：	202110676865.X	申请日：	2021-06-18
公开（公告）号：	CN114119698B	公开（公告）日：	2022-07-19
发明（设计）人：	张小刚;凌传武;陈华;王炼红;王绍源	申请（专利权）人：	湖南大学
主分类号：	G06T7/55	分类号：	G06T7/55;G06N3/04;G06N3/08
代理公司：	长沙新裕知识产权代理有限公司 43210	代理人：	刘加
地址：	410082 湖***	国省代码：	湖南;43
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于注意力机制监督深度估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

基于注意力机制的无监督单目深度估计方法，包括以下步骤：步骤S1：将KITTI数据集调整至同一分辨率大小后，划分为训练数据集、验证数据集和测试数据集；步骤S2：对训练数据集和验证数据集中的数据进行数据增广；步骤S3：构建单目深度估计神经网络；步骤S4：利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置，即网络模型参数，将得到的网络模型参数代入验证数据集，保存使得验证数据集损失函数最小的网络模型参数；步骤S5：使用损失函数最小的网络模型参数，对测试数据集进行测试，得到测试数据集的预测值。本发明能有效提高单目深度估计的精度。

技术领域

本发明涉及计算机视觉领域，具体是涉及一种基于注意力机制的无监督单目深度估计方法。

背景技术

图像深度估计在场景理解与重构、图像重聚焦等许多计算机视觉任务中起着非常重要的作用。与主动式深度测量装备(例如激光雷达、深度相机)相比，基于图像的深度估计方法具有更广的适用范围。在基于图像的深度估计方法中，单目深度估计的目标是从单张图片中估计场景的深度信息。相比双目和多目深度估计方法，单目深度估计由于只需要提供单个相机用于图像获取，系统搭建更为便捷。

近年来，随着深度学习技术的发展，使用深度卷积神经网络来进行单目深度估计受到了广泛的关注。有监督的深度神经网络的训练需要有大量的训练数据。构建足够大的训练数据集是非常耗时且昂贵的。越来越多的研究人员开始转向研究无监督(或称自监督)的单目深度估计方法，通过视频帧对或者双目图像对之间的视图重构损失为网络的训练提供监督信号，从而避免了真实深度标签的使用。

以基于双目图像对的单目深度估计技术为例：首先，将双目图像对分为源视图和目标视图，网络会对源视图进行视差估计；然后，根据估计出来的视差图和源视图合成目标视图；第三，根据合成的目标视图与真实的目标视图之间的重构误差来对网络进行训练；最后，根据已知的相机参数，可以将估计的视差转换为深度图。对于深度估计任务来说，单个像素的深度值与像素的上下文密切相关，因此需要足够大的感受野。在现有这些方法中，由于网络中卷积层受限于有限的卷积核大小，难以获得足够大的感受野范围，导致图像中一些细节区域的估计的精度不高。因此，需要设计一种能够解决上述问题的方法。

发明内容

本发明所要解决的技术问题是，克服上述背景技术的不足，提供一种基于注意力机制的无监督单目深度估计方法，能够捕获特征空间中的全局感受野，估计精度高。

本发明解决其技术问题采用的技术方案是，一种基于注意力机制的无监督单目深度估计方法，包括以下步骤：

步骤S1：将KITTI数据集调整至同一分辨率大小后，划分为训练数据集、验证数据集和测试数据集；

步骤S2：对训练数据集和验证数据集中的数据进行数据增广；

步骤S3：构建单目深度估计神经网络；

步骤S4：利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置，即网络模型参数，将得到的网络模型参数代入验证数据集，保存使得验证数据集损失函数最小的网络模型参数；

步骤S5：使用损失函数最小的网络模型参数，对测试数据集进行测试，得到测试数据集的预测值。

进一步，所述步骤S2中，对数据进行数据增广的方法如下：

步骤S2-1：图像水平翻转；概率为0.5；

步骤S2-2：图像伽马校正，校正系数范围为0.8-1.2；概率为0.5；

步骤S2-3：图像亮度偏移，偏移系数范围为0.5-2.0；概率为0.5；