[发明专利]基于深度学习的全景相机姿态估计方法有效
申请号: | 201810658881.4 | 申请日: | 2018-06-25 |
公开(公告)号: | CN109035327B | 公开(公告)日: | 2021-10-29 |
发明(设计)人: | 英向华;张单枫;石永杰;佟新;文敬司;查红彬 | 申请(专利权)人: | 北京大学 |
主分类号: | G06T7/70 | 分类号: | G06T7/70;G06T3/00;G06T3/60 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 100871*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 学习 全景 相机 姿态 估计 方法 | ||
1.一种基于深度学习的全景相机姿态估计方法,基于深度卷积网络和消失点,对全景相机的三维朝向进行估计,只需给定单张全景图片即能估计得到相机相对于世界的旋转矩阵;包括如下步骤:
1)图像数据采集:获取区域的全景图片;
2)图像数据处理,执行如下操作:
21)将全景图片转换为透视投影下的图片;具体地:首先将全景图片纹理映射在单位球的表面,然后在单位球的内部放置同心立方体,在球心处放置虚拟针孔模型相机,球心到立方体表面的距离为焦距f,得到六张透视投影图片;
22)在透视投影图片下,标记相机相对世界坐标系的三维旋转矩阵;
23)利用渲染技术及纹理贴图技术模拟相机的不同旋转,生成新视角的图片及旋转矩阵;标记旋转矩阵;
标记旋转矩阵具体是:在六张透视图片中标记消失点,作为旋转矩阵的三个列向量,即得到三维旋转矩阵;
3)建立用于全景相机姿态估计的新的网络结构PanoNet:设计具有两个并行输出的网络结构,两个并行输出分支分别输出两个方向的消失点,输出的消失点同时是旋转矩阵的两个方向向量;
4)训练步骤3)新建的网络结构,具体是采用小批量随机梯度下降的方法,利用步骤1)和步骤2)得到的图片训练网络;
5)预测估计全景相机姿态:给定单张全景图片,输入到训练好的网络,网络输出两个三维单位列向量,作为旋转矩阵的前两列向量,叉积得到第三列向量,即得到相机相对于世界的旋转矩阵,即全景相机姿态;
所述旋转矩阵是一个3×3的矩阵R;且满足:
RRT=I
det(R)=1
其中,I是三行三列的单位矩阵;det()表示对矩阵求行列式;
通过上述步骤,实现基于深度学习的全景相机姿态估计。
2.如权利要求1所述基于深度学习的全景相机姿态估计方法,其特征是,步骤1)图像数据采集,具体是通过在谷歌街景中选取各个大城市,在每个城市中随机选取城市的内部区域,模拟相机采集全景图片。
3.如权利要求1所述基于深度学习的全景相机姿态估计方法,其特征是,步骤23)具体是利用OpenGL的渲染技术及纹理贴图技术模拟相机的不同旋转,生成新视角的图片以及旋转矩阵。
4.如权利要求1所述基于深度学习的全景相机姿态估计方法,其特征是,步骤23)中,标记消失点的方法具体是:在六张透视图片中,选取垂直于地面的多条直线,在图像平面上的这些直线并不平行,求直线簇的交点;同时选取水平两个方向的多条直线,分别计算交点,得到空间中三个垂直方向的消失点。
5.如权利要求4所述基于深度学习的全景相机姿态估计方法,其特征是,在图片中标记空间中两个垂直方向的直线的交点(x1,y1),(x2,y2),然后将焦距作为第三维向量,进行叉乘,得到第三个方向的点的坐标。
6.如权利要求1所述基于深度学习的全景相机姿态估计方法,其特征是,步骤3)建立用于全景相机姿态估计的新的网络结构,具体采用pytorch框架,基于卷积网络建立新型的网络结构PanoNet,来进行相机旋转的预测;网络结构PanoNet的输出包含两个并行的分支,分别输出两个方向的消失点,输出的消失点同时是旋转矩阵的两个列向量。
7.如权利要求6所述基于深度学习的全景相机姿态估计方法,其特征是,卷积网络包括:Vgg19、GoogLenet、Resnet50。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京大学,未经北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810658881.4/1.html,转载请声明来源钻瓜专利网。