[发明专利]一种基于自监督学习的前视场景深度估计方法在审
申请号: | 202110708650.1 | 申请日: | 2021-06-25 |
公开(公告)号: | CN113313732A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 丁萌;尹利董;徐一鸣;李旭;宫淑丽 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06T7/207 | 分类号: | G06T7/207;G06T7/73;G06N3/04;G06N3/08 |
代理公司: | 常州品益专利代理事务所(普通合伙) 32401 | 代理人: | 侯慧娜 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 视场 景深 估计 方法 | ||
本发明提供一种基于自监督学习的前视场景深度估计方法,包括以下步骤:计算自监督学习重投影公式;构建深度估计和位姿估计联合训练网络,设计损失函数,对KITTI可见光数据进行预训练得到可见光预训练模型;将可见光预训练模型迁移至FLIR红外数据进行训练,实现红外图像的稠密深度估计,解决了现有的基于视觉方法的前视场景三维深度估计方法只适用于可见光条件,而无法在夜间或可见度较低条件下使用的问题,能够在没有真实深度数据监督的情况下实现夜间或可见度较低情况下的红外单目图像的三维深度估计,进而弥补视觉辅助驾驶系统对夜间红外图像深度估计的不足。
技术领域
本发明涉及图像处理技术领域,尤其涉及一种基于自监督学习的前视场景深度估计方法。
背景技术
在自动驾驶领域,视觉辅助驾驶系统受到越来越多的关注,且随着各类硬件设备计算力的不断增强,计算机从单张图像获取场景信息的能力也不断提高,视觉辅助驾驶系统的核心即获取车辆前视场景深度信息,以实现障碍规避、距离测算等下级任务,但是目前基于视觉方法的前视场景三维深度估计只能在可见光条件下进行,而在夜间或者可见度较低的情况下无法进行,例如,基于双目相机或者多目相机的视觉深度估计方法,其原理决定了深度估计范围受限于相机的安装基线,不适用于观察远距离;基于几何视觉的深度估计方法中最具代表性的方法为运动回复结构,但运动回复结构为离线算法,不适用于自动驾驶领域的实时性要求;深度学习方法中,监督学习需要预先标定好大量带有真实深度标签的数据,获取训练数据需付出大量的人力、物力,且训练过程中只考虑机械的拟合深度估计值与标签值之间的差异,并未考虑视觉几何约束关系。
发明内容
本发明公开的一种基于自监督学习的前视场景深度估计方法,解决了现有的基于视觉方法的前视场景三维深度估计方法只适用于可见光条件,而无法在夜间或可见度较低条件下使用的问题,能够在没有真实深度数据监督的情况下实现夜间或可见度较低情况下的红外单目图像的三维深度估计,进而弥补视觉辅助驾驶系统对夜间红外图像深度估计的不足。
为达到上述目的,本发明的技术方案具体是这样实现的:
本发明公开一种基于自监督学习的前视场景深度估计方法,包括以下步骤:
计算自监督学习重投影公式;
构建深度估计和位姿估计联合训练网络,设计损失函数,对KITTI可见光数据进行预训练得到可见光预训练模型;
将可见光预训练模型迁移至FLIR红外数据集进行训练,实现红外图像的稠密深度估计。
进一步地,计算自监督学习重投影公式的具体步骤包括:
根据设备参数计算相机的内参矩阵k;
其中,f为相机焦距,dx和dy为相机成像传感器的像元尺寸,u0和v0位图像中心点坐标,H为图像的水平分辨率,W为图像的垂直分辨率,fovh为相机的水平直视场角,fovw为相机的垂直场视角;
将三位点投影到二维平面,计算相机坐标系与世界坐标系的坐标转换;
其中,D从相机角度观察到的三位空间中某点距离相机的水平深度,u和v为该点在相机成像平面的坐标,k为相机内参矩阵,xw、yw和zw为该点在世界坐标系下的坐标,t为相机坐标系和世界坐标系之间的位移向量,R为相机坐标系和世界坐标系之间的旋转矩阵,T为位姿变换矩阵;
得到自监督学习核心公式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110708650.1/2.html,转载请声明来源钻瓜专利网。