[发明专利]一种基于RAFT的自监督深度估计方法在审
申请号: | 202210660035.2 | 申请日: | 2022-06-10 |
公开(公告)号: | CN114972517A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 耿向威;司马崇昊;李弘扬;陈立;张菘淳;乔宇 | 申请(专利权)人: | 上海人工智能创新中心 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/593;G06T5/50 |
代理公司: | 上海智晟知识产权代理事务所(特殊普通合伙) 31313 | 代理人: | 李镝的 |
地址: | 200232 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 raft 监督 深度 估计 方法 | ||
1.一种基于RAFT的自监督深度估计方法,其特征在于,包括下列步骤:
估计场景中的深度信息以及相机自运动信息,并且利用所述深度信息以及所述相机自运动信息进行自监督训练;以及
基于RAFT估计场景中的三维运动场信息,并且利用所述三维运动场信息进行自监督训练。
2.根据权利要求1所述的基于RAFT的自监督深度估计方法,其特征在于,估计场景中的深度信息包括下列步骤:
将场景中的第一图像和第二图像输入多尺度的FPN网络以提取所述第一和第二图像的多尺度特征,其中所述第一和第二图像是连续的图片帧;
将所述第一和第二图像输入相对位姿估计网络以预测所述第一图像与所述第二图像之间的相对位姿;以及
根据所述多尺度特征,在深度方向上划分深度区间,并以迭代的方式由粗到细进行区间划分进行深度估计以及所述场景中的对应位姿信息。
3.根据权利要求2所述的基于RAFT的自监督深度估计方法,其特征在于,根据所述多尺度特征以及所述相对位姿估计场景中的深度信息包括下列步骤:
初始化场景中的深度最小值与深度最大值;
在所述深度最小值与深度最大值之间等间距地划N等分以便在相机坐标系下等间隔地构造多个与相机平面垂直的垂直平面;
根据所述多尺度特征、所述相对位姿以及所述多个垂直平面的深度,在所述垂直平面上进行特征代价匹配以构造第一代价体;
将所述第一代价体通过编码器-解码器架构以获取概率体;
将所述概率体在深度维度上的最小概率值作为当前像素上的深度值候选;以及
在深度维度上计算深度的期望以估计场景中的深度信息。
4.根据权利要求3所述的基于RAFT的自监督深度估计方法,其特征在于,还包括下列步骤:
在低分辨率特征图下,对多个所述垂直平面前后的带状区域内进行等间隔的深度曲面采样;
在所述深度曲面上进行特征代价匹配以生成低分辨率深度信息;
根据所述低分辨率特征生成的深度信息结合高分辨率特征进行高精度的细分代价匹配以生成高分辨率深度信息。
5.根据权利要求3所述的RAFT的自监督深度估计方法,其特征在于,利用所述深度信息以及所述相机自运动信息进行自监督训练包括:
确定相机的内参数;
根据所述相对位姿、所述深度信息、所述相机的内参数进行视图的单应变换以构造场景的第一重投影图像;以及
将所述第一重投影图像与场景的原图像的光度一致性作为优化目标进行第一自监督训练。
6.根据权利要求5所述的基于RAFT的自监督深度估计方法,其特征在于,基于RAFT估计场景中的三维运动场信息包括下列步骤:
将所述第一图像与所述第二图像在同一坐标系下进行投影,并且将投影时未对齐的区域确定为动态物体区域;
基于所述第一和第二图像以及所述深度信息将所述第一和第二图像拼接为第三图像;
利用第一和第二骨干特征提取网络提取所述第三图像与所述原图像之间的第一和第二特征图;
对所述第一和第二特征图进行点积计算像素之间的相似度以构造第二代价体:
将所述第二代价体存储为四维的相似度查找表;
将所述三维运动场初始为全零矩阵;以及
将所述动态物体区域内的于每个像素利用所述相似度查找表查找最为相似的点并且进行循环迭代更新以获取三维运动场信息。
7.根据权利要求6所述的基于RAFT的自监督深度估计方法,其特征在于,进行循环迭代更新以获取三维运动场信息包括利用GRU模块以及卷积操作,计算出相对于上次迭代过程输出运动场的残差运动场,然后与上次迭代过程输出运动场进行相加用作补偿。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海人工智能创新中心,未经上海人工智能创新中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210660035.2/1.html,转载请声明来源钻瓜专利网。