[发明专利]一种基于神经网络的深度位姿估计方法、装置及终端设备在审
申请号: | 202011339842.1 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112396657A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 吴开兴;施丽君;顾明星;赵洪林 | 申请(专利权)人: | 河北工程大学 |
主分类号: | G06T7/73 | 分类号: | G06T7/73;G06T7/55 |
代理公司: | 河北国维致远知识产权代理有限公司 13137 | 代理人: | 张一 |
地址: | 056038 河北省*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 深度 估计 方法 装置 终端设备 | ||
本发明属于计算机视觉领域,具体涉及一种基于神经网络的深度位姿估计方法。本发明实施例包括一种基于神经网络的深度位姿估计方法,所述神经网络包括深度估计网络、目标检测网络和位姿估计网络;所述方法包括:获取待进行深度位姿估计的图像视频序列;利用所述深度估计网络对源视图和目标视图进行深度估计获得深度图像;利用所述目标检测网络获得所述目标视图的标签信息;将所述源视图、所述目标视图、所述标签信息和所述深度图像输入所述位姿估计网络获得位姿信息。本方法通过神经网络计算深度图像、标签信息和位姿信息,计算结果包含语言信息,自身轻量高效,可以处理好目标和源视图之间有遮掩的问题,并且使低纹理区域具有更高的鲁棒性。
技术领域
本发明属于计算机视觉领域,具体涉及一种基于神经网络的深度位姿估计方法、装置及终端设备。
背景技术
随着计算机科学技术以及车辆硬件的发展,研究基于现有的科学技术搭配可实施的汽车硬件完成机器智能自主导航是今后研究的热门方向,计算机视觉系统是其中的关键技术之一。
现有的技术包括ORB-SLAM3(Oriented FAST and Rotated BRIEFsimultaneouslocalization and mapping,第三代基于快速特征点提取和描述的三维定位与地图构建算法)和SFMLearner(Structure from Motion,三维重建算法)。ORB-SLAM3通过实时跟踪特征点的寻迹线程、局部Bundle Adjustment(光束法平差)的优化线程和全局位姿图的回环检测与优化线程完成对相机的跟踪与建图工作。SLAM系统需要对每张图像都计算一遍ORB特征,耗时长、计算量大,对CPU的要求较高,不易移植到嵌入式端。
SFMLearner利用光度一致性原理来估计每一帧的深度和位姿,通过训练误差处理目标和源视图之间有无遮掩的问题,但只是在每个像素位置用常数标签1最小化交叉熵损失来避免网络一直训练为零,对于没有直接的监督,预测结果的信服力较低。
发明内容
有鉴于此,本发明实施例提供了一种基于神经网络的深度位姿估计方法、装置及终端设备,以解决ORB-SLAM3中耗时长、运算量大、低纹理区域效果较差的问题和SFMLearner中对目标和源视图之间是否有遮掩的预测结果的信服力较低的问题。
本发明实施例的第一方面一种基于神经网络的深度位姿估计方法,神经网络包括深度估计网络、目标检测网络和位姿估计网络;
该方法包括:
获取待进行深度位姿估计的图像视频序列;
利用深度估计网络对图像视频序列中的源视图和目标视图进行深度估计,获得深度图像,其中,目标视图为图像视频序列中在源视图的后一时刻的视图图像;
利用目标检测网络对目标视图进行目标切分和标记,获得目标视图的标签信息;
将源视图、目标视图、标签信息和深度图像输入位姿估计网络,获得位姿信息。
可选的,位姿估计网络为对初始位姿估计网络进行训练后得到;
相应的,在将源视图、目标视图、标签信息和深度图像输入位姿估计网络,获得位姿信息之前还包括:
将将源视图、目标视图、标签信息和深度图像输入初始位姿估计网络,获得初始位姿信息;
基于初始位姿信息、深度图像,将目标视图卷积投影到源视图上,对源视图进行重建;
基于重建前的源视图与重建后的源视图之间的误差,利用误差反向传播法调整位姿估计网络的网络参数,直至误差符合预设条件。
可选的,计算误差的误差函数包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北工程大学,未经河北工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011339842.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种湖区浮泥机械清除施工工艺
- 下一篇:一种铲土机械运输用铲斗