[发明专利]一种基于RAFT的自监督深度估计方法在审

申请号：	202210660035.2	申请日：	2022-06-10
公开（公告）号：	CN114972517A	公开（公告）日：	2022-08-30
发明（设计）人：	耿向威;司马崇昊;李弘扬;陈立;张菘淳;乔宇	申请（专利权）人：	上海人工智能创新中心
主分类号：	G06T7/73	分类号：	G06T7/73;G06T7/593;G06T5/50
代理公司：	上海智晟知识产权代理事务所(特殊普通合伙) 31313	代理人：	李镝的
地址：	200232 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 raft 监督深度估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及计算机视觉技术领域，提出一种基于RAFT的自监督深度估计方法，包括下列步骤：估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

技术领域

本发明总的来说涉及计算机视觉技术领域。具体而言，本发明涉及一种基于RAFT(Recurrent All-Pairs Field Transforms，递归全对场变换)的自监督深度估计方法。

背景技术

从单目视觉系统中同时估计相机的运动和场景的三维结构是一项复杂的任务，通常依赖于的场景的刚性假设。而当相机处在动态环境中时这一假设将被违反，导致相机的自运动和物体的运动之间出现耦合，进而会导致模型的训练困难，预测中出现无穷远“黑洞”等问题。

相机自运动和场景三维结构的同步估计是三维计算机视觉的一个基本研究课题，该任务对于三维场景重建以及同时定位建图等任务有很大的帮助。

传统的同步估计方法包括直接法与特征点法，这些方法通过最小化相邻两帧之间的光度一致性来对场景结构以及位姿进行联合估计。近年来，基于自监督深度学习的方法大幅度提升了深度估计的准确度，同时大幅度减少了所需的时间成本。其中，一项开创性的工作SFMlearner将相邻帧之间的重投影误差作为一个自监督信号，以此来联合训练深度估计网络和位姿估计网络。在这种基准结构的启发下，自监督的深度和运动学习的框架已经被广泛地研究。

然而，此类基于光度一致性的优化方法假设场景中的物体均为静态的，因此通常需要遮盖移动的物体以忽略非刚性的运动。现有的方法主要分为两类，其中基于实例分割的方法将前景与背景物体分别进行运动预测，以此消除非刚性带来的影响；此外，还有基于残差光流的方法，通过预测两幅图像之间的光流，以此来估计动态物体所处的区域。

现有的动态场景深度估计方法主要基于实例分割与残差光流。基于实例分割的方法，通过将前景物体分割出来后，将前景与背景分别送入运动估计网络预测各自的运动，可以得到较好的效果，然而该方法需要十分昂贵的逐像素的标注信息，因此难以投入实际使用。

此外基于光流的方法，即通过刚体变换以及光流联合进行图像的投影变化，由于稠密光流是对两张图像之间进行点对点的匹配，因此相比于位姿估计网络而言更加灵活，可以对视图的变换进行更加充分的描述。然而，该方法对于稠密光流的预测准确率要求较高，同时由于该方法基于匹配，因此在低纹理区域、光线变化剧烈以及大幅度运动的场景可能会失效。

发明内容

为至少部分解决现有技术中的上述问题，本发明提出一种基于RAFT动态物体感知的自监督深度估计方法，包括：

估计场景中的深度信息以及相机自运动信息，并且利用所述深度信息以及所述相机自运动信息进行自监督训练；以及

基于RAFT估计场景中的三维运动场信息，并且利用所述三维运动场信息进行自监督训练。

在本发明一个实施例中规定，估计场景中的深度信息包括下列步骤：

将场景中的第一图像和第二图像输入多尺度的FPN网络以提取所述第一和第二图像的多尺度特征，其中所述第一和第二图像是连续的图片帧；

将所述第一和第二图像输入相对位姿估计网络以预测所述第一图像与所述第二图像之间的相对位姿；以及

根据所述多尺度特征，在深度方向上划分深度区间，并以迭代的方式由粗到细进行区间划分进行深度估计。

在本发明一个实施例中规定，根据所述多尺度特征以及所述相对位姿估计场景中的深度信息包括下列步骤：

初始化场景中的深度最小值与深度最大值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载