[发明专利]一种基于注意力机制的视差优化方法有效
申请号: | 202011441310.9 | 申请日: | 2020-12-11 |
公开(公告)号: | CN112509021B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 杜娟;李博涵;林登萍 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06T7/33 | 分类号: | G06T7/33;G06N3/0464;G06N3/09 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 王东东 |
地址: | 511458 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 视差 优化 方法 | ||
1.一种基于注意力机制的视差优化方法,其特征在于,包括如下步骤:
使用视差预估主干网络对双目视觉图像进行初始视差值计算,得到预测视差值,所述双目视觉图像包括左图像及右图像;
设置多层次信息提取子网络,将注意力机制模块嵌入到子网络中,将左图像输入后,得到两幅不同维度的特征图;
将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并,进行细化视差值计算;
采用监督回归损失函数端对端训练网络,所述网络包括视差预估主干网络和多层次信息提取子网络;
将待预测的双目视觉图像输入完成训练的网络中,得到对应的视差预测值;
所述多层次信息提取子网络包括残差卷积模块,所述残差卷积模块分别与两个注意力机制模块输入端连接,一个注意力机制模块与二维卷积层连接,另一个注意力机制模块与三维卷积层连接;
所述设置多层次信息提取子网络,将注意力机制模块嵌入到子网络中,双目视觉图像输入后,得到两幅不同维度的特征图,具体为:
将双目图像中的左图像下采样后输入多层次信息提取子网络中,使用残差卷积模块获取初始二元特征;
获取的初始二元特征分别输入到两个注意力机制模块中,得到两个细化二元特征,其中一个细化二元特征输入多个二维卷积层中得到输出三维特征图F01,其大小为H×W×C,这里H代表特征图高度,W代表特征图宽度,C代表特征图通道数;
另一个细化二元特征输入多个三维卷积层中得到输出四维特征图F02,其大小为H×W×D×F,H代表特征图高度,W代表特征图宽度,D代表视差值,F代表特征大小;
所述将子网络提取的特征图与视差预估主干网络中不同位置的特征图在对应维度上合并,进行细化视差值计算,具体为:
分别使用二维反卷积和三维反卷积对F01和F02进行上采样,得到新的三维特征图F01′和四维特征图F02′;
将F01′和F02′与视差预估主干网络中不同位置的特征图在对应维度相合并,融合相关特征信息。
2.根据权利要求1所述的视差优化方法,其特征在于,所述视差预估主干网络包括两个权值共享的残差卷积模块、两个权值共享的膨胀空间金字塔模块及卷积层。
3.根据权利要求2所述的视差优化方法,其特征在于,使用视差预估主干网络对双目视觉图像进行初始视差值计算,得到预测视差值,具体为:
将左右双目图像依次输入使用共享权重的残差卷积模块和膨胀空间金字塔模块进行特征提取,得到左右二元特征图;
左右二元特征图按视差等级对应连接,构建四维代价体积模块,该四维代价体积为H×W×D×F,其中H代表特征图高度,W代表特征图宽度,D代表视差值,F代表特征大小,然后使用三维卷积进一步对该四维代价体积进行正则化;
使用softmax回归函数对正则化思维代价体积进行视差回归计算,得到预测视差值
4.根据权利要求1所述的视差优化方法,其特征在于,所述监督回归损失函数如下:
其中,N表示标记的像素数目,i代表真实的视差值,代表网络预测的视差值,定义如下:
5.根据权利要求3所述的视差优化方法,其特征在于,预测视差值
式中,Dmax代表预测视差的最大值,d代表每个视差值的可能性大小,σ(·)代表softmax函数,Cd正则化后的代价体积。
6.根据权利要求1所述的视差优化方法,其特征在于,所述注意力机制模块的表达式如下:
式中,Fs表示最终生成的特征图,δ是批标准化操作,使用1×1的卷积层进行特征图聚合和通道数量调整,i和Ej分别表示空间注意力特征图和通道注意力特征图,0表示输入的原始特征图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011441310.9/1.html,转载请声明来源钻瓜专利网。