[发明专利]基于注意力机制的无监督单目深度估计方法有效
申请号: | 202110676865.X | 申请日: | 2021-06-18 |
公开(公告)号: | CN114119698B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 张小刚;凌传武;陈华;王炼红;王绍源 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06T7/55 | 分类号: | G06T7/55;G06N3/04;G06N3/08 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 刘加 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 机制 监督 深度 估计 方法 | ||
1.一种基于注意力机制的无监督单目深度估计方法,其特征在于,包括以下步骤:
步骤S1:将KITTI数据集调整至同一分辨率大小后,划分为训练数据集、验证数据集和测试数据集;
步骤S2:对训练数据集和验证数据集中的数据进行数据增广;
步骤S3:构建单目深度估计神经网络;
步骤S4:利用训练数据集训练单目深度估计神经网络得到相应的权重与偏置,即网络模型参数,将得到的网络模型参数代入验证数据集,保存使得验证数据集损失函数最小的网络模型参数;
步骤S5:使用损失函数最小的网络模型参数,对测试数据集进行测试,得到测试数据集的预测值;
所述步骤S4,包括以下步骤:
步骤S4-1:设置初始化迭代次数I=0,最大迭代次数为Imax;使用Xavier初始化神经网络各层权重参数;
步骤S4-2:使用网络中编码器进行特征提取;
步骤S4-3:使用网络中解码器预测视差图;
步骤S4-4:通过扭曲操作,得到多次合成的视图;
步骤S4-5:计算网络损失函数;
步骤S4-6:计算使验证数据集损失函数最小的网络模型参数;
所述步骤S4-4,通过扭曲操作,得到多次合成的视图的具体方法如下:
在每个尺度下,将预测的左视差图dl和双目图像对中的右图Ir通过扭曲函数得到合成左图
其中(x,y)为像素坐标;w(.)为扭曲函数,定义为:
w((x,y),d(x,y))=(x+d(x,y),y)
将合成左图与预测的右视差图dr通过扭曲函数得到二次合成的右图
将二次合成的右图与预测的左视差图dl通过扭曲函数得到三次合成的左图,将三次合成的左图与预测的右视差图dr通过扭曲函数得到四次合成的右图;依次类推,通过对合成的视图进行扭曲操作,得到n次合成的视图;
所述步骤S4-5,包括以下步骤:
步骤S4-5-1:计算多层扭曲视图重构损失;
其中Il/r代表双目图像对中的左图/右图,是一次合成的左图/右图,是三次合成的左图/右图,i是像素索引,N是图片像素的个数,α是权重超参数,SSIM是结构相似性损失;
步骤S4-5-2:计算视差平滑损失:
其中和是对左/右视差图分别求水平和垂直方向的梯度,和是对双目图像对中的左图/右图分别求水平方向和垂直方向的梯度;i是像素索引,N是图片像素的个数;|.|代表求绝对值操作,e为自然常数;
步骤S4-5-3:计算视差图一致性损失:
左视差图一致性损失如下式所示:
右视差图一致性损失如下式所示:
对于每一个尺度s,整体损失函数如下式所示
其中λap,λds,λc是三个超参数权重;
步骤S4-5-4:计算网络最终的损失函数,网络最终的损失函数为4个尺度下的整体损失函数之和:
2.如权利要求1所述的基于注意力机制的无监督单目深度估计方法,其特征在于:所述步骤S2中,对数据进行数据增广的方法如下:
步骤S2-1:图像水平翻转;概率为0.5;
步骤S2-2:图像伽马校正,校正系数范围为0.8-1.2;概率为0.5;
步骤S2-3:图像亮度偏移,偏移系数范围为0.5-2.0;概率为0.5;
步骤S2-4:图像RGB通道偏移,偏移系数范围为0.8-1.2;概率为0.5。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110676865.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:头戴式显示器
- 下一篇:影像切换控制方法及影像处理装置