[发明专利]一种基于多任务学习算法的三维重建及相机位姿估计方法有效
申请号: | 202110581983.2 | 申请日: | 2021-05-26 |
公开(公告)号: | CN113160375B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 郑健青;黄保茹 | 申请(专利权)人: | 郑健青 |
主分类号: | G06T15/00 | 分类号: | G06T15/00;G06T7/80;G06T7/70;G06N3/04 |
代理公司: | 上海京沪专利代理事务所(普通合伙) 31235 | 代理人: | 沈美英 |
地址: | 200331 上海市普*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 算法 三维重建 相机 估计 方法 | ||
本发明涉及一种基于多任务学习算法的三维重建及相机位姿估计方法,是通过搭建一个基于端到端多任务深度学习算法,包含有特征提取及处理模块和特征匹配模块并具有多输入多输出功能的人工神经网络实现的。人工神经网络估计多视图对应的深度、视图间的像素匹配及相机运动,提高多个任务中的信息利用率和精度,对应各个视图和两两视图之间的参数共享,并由特征匹配模块匹配不同视图间各个尺度特征,结合匹配置信权重的估计,实现了不同尺度之间匹配信息的复用、融合以及各个视图间信息的有效传播。相比现有的基于注意力机制的方法,本算法减少了计算次数并提高了匹配的准确性,实现了陌生场景中的自监督优化,从而极大提升了其实用价值。
技术领域
本发明涉及图像数据采集技术领域,特别是一种基于多任务学习算法的三维重建及相机位姿估计方法。
背景技术
在计算机视觉中,三维重建(3D Reconstruction)是指根据单视图或者多视图的图像重建视野内三维信息的过程。其中单视图三维重建需要用到先验信息、特殊光源或传感器,而多视图三维重建可以通过多张图像恢复观测场景或物体的三维信息而不需要额外的硬件辅助,因此具有广泛的应用,例如在增强现实、机器人和自动驾驶等领域。但是现有多视图三维重建通常需要各个视图曝光点已知的相机的位置姿态,来限制特征匹配搜索范围。因此相机位姿估计(Camera Pose Estimation)通常作为多视图三维重建的前置或同步部分,在运动恢复结构(Structure from Motion)、即时定位与地图构建(SimultaneousLocalization and Mapping)和视觉里程计(Visual Odometry)等任务中具有很强的可迁移性。
三维重建及相机位姿估计方法主要包括四个部分:1)提取二维图像特征;2)寻找同一特征点在多个视图图像中的对应关系;3)通过不同视图的一组对应的特征点来估测相机的运动参数和特征点的三维坐标;4)计算全局坐标系下的相机位姿,并通过曲面重建和纹理映射来实现最终的三维物体或场景表面重建。
在第1)部分中传统的特征提取方法(如尺度不变量特征变换SIFT、快速鲁棒特征SURF)一般需要根据场景进行相应调整,缺乏普适性。对于第2)部分和第3)部分,传统的图像特征匹配方法如随机样本一致性(RanSaC)算法组合奇异值分解方法需要迭代运算,在对稠密特征点的匹配情况下会严重增加时间成本,因此通常针对稀疏特征点进行匹配,然而这造成了场景中的遮挡或者图像噪声,故更容易影响特征跟踪的稳定性和寿命,进而对相机位姿估计和三维重建精度造成影响,并且容易导致重建漂移的现象。特别是对于大尺度场景的三维重建及相机位姿估计来说,这个问题尤为严重。另外对于第4)部分,稀疏的特征点推出的稀疏三维点云使得三维物体、场景的表面重建丢失了大量细节信息。
深度学习算法如卷积神经网络在第1)部分中可以根据不同场景数据来自适应调整,因而具有普适性,但是需要不同场景的数据进行训练;在第2)部分深度学习通常可以实现快速的特征点匹配,但是受限于搜索空间所带来的计算成本,现有的深度学习方法通常难实现大范围运动的两个视图之间的稠密匹配,或是需要观测物体、场景、拍摄过程的先验条件来限制搜索范围,如2018年ECCV会议所收录的MVSNet采用的代价体(Cost Volume)不仅需要相机标定还限制了视差范围;在第3)部分中现有深度学习方法基本能够实现相机运动的实时估计及稠密的深度预测,但是对于大范围的相机运动造成的低视野重合度同样存在困难。
从人工神经网络结构角度看,现有的基于卷积神经网络方法通常串联多个视图图像或特征图输入网络作为一整个特征图,造成输入视图数量无法灵活调整,同时其中卷积层无法有效提供图像空间中长距离相关特征信息,使得这种方法只能限于小幅度相机运动,而基于注意力(attention)机制的Transformer网络可以解决上述问题,却无法高效的提取和处理底层图像特征和空间信息。当下有部分工作正在尝试将两者结合各取所长,但是目前的大部分相关工作都采用前端卷积神经网络提取一个抽象特征向量输入后端Transformer网络处理,造成了高分辨率信息的丢失,同时也忽视了卷积层的空间不变性在深度估计等任务中的高效性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑健青,未经郑健青许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110581983.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于矫正坐姿的智能限位装置
- 下一篇:往复式自动换向增压器