[发明专利]一种基于深度学习的单目视觉场景深度估计的方法在审
申请号: | 201910573787.3 | 申请日: | 2019-06-28 |
公开(公告)号: | CN110310317A | 公开(公告)日: | 2019-10-08 |
发明(设计)人: | 李晖晖;刘浪涛;袁翔;郭雷;刘航 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G06T7/50 | 分类号: | G06T7/50 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 王鲜凯 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于深度学习的单目视觉场景深度估计的方法,采用VGG‑13网络模型,利用深度可分离卷积层代替标准卷积层以减少模型参数量,得到可用于获取视差图像的网络模型;将单目图像输入训练好的网络模型,生成多个尺度的视差图,再结合多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图;根据多视图几何学中视差图与深度图的几何变换关系,生成对应的深度图像。有益效果:使用简单易得的双目可见光图像训练网络模型而不用使用获取代价很高的真实深度数据;采用深度可分离卷积代替标准卷积,可以减少网络模型的参数量为之前的七分之一,提升模型的推理速度。 | ||
搜索关键词: | 网络模型 视差图 卷积 场景深度估计 单目视觉 可分离 尺度 几何变换关系 训练网络模型 几何学 可见光图像 单目图像 深度数据 深度图像 视差图像 输入图像 多尺度 深度图 平滑 可用 推理 双目 融合 学习 | ||
【主权项】:
1.一种基于深度学习的单目视觉场景深度估计的方法,其特征在于步骤如下:步骤1、网络模型的构建及训练,获得一个能够生成单目场景视差图的网络模型:采用标准的VGG‑13网络模型,以深度可分离卷积作为网络模型每一层中的标准卷积,采用图像重构损失、视差平滑性损失以及左右视差一致性损失构建网络的损失函数,将标准数据集中的双目图像对输入网络模型,输出模型损失,利用最小化损失的思想,采用随机梯度下降的方法训练网络模型;所述损失函数为:其中分别为左右图像的重构损失,分别为左右视差图的视差平滑性损失,分别为左右视差一致性损失,α、β、γ分别为三种损失在总损失中所占有的权重;步骤2、通过网络模型获取M个不同尺度的视差图,再经过多尺度融合与视差图平滑生成与输入图像尺度一致的单幅视差图:(1)多尺度融合:设置尺度参数为M,对于采集的单目场景图像,采用张正友标定法进行图像校正,将校正后的单目图像输入训练好的网络模型;输入图像尺度为S,通过网络模型输出M个尺度分别为S/20、S/21、S/22、…、S/2M‑1的视差图;将尺度为S/21、S/22、…、S/2M‑1的视差图分别经过多次双线性插值之后生成M‑1个尺度为S的视差图,对于全部M个尺度均为S的视差图,对每个像素位置的视差值采用线性叠加并求均值的操作,得到视差图:式中:为第M个视差图在像素坐标(i,j)处的视差值,dij为最终获取的视差图在像素坐标(i,j)处的视差值;(2)视差图平滑:对视差图像采用的高斯滤波器为(2k+1)×(2k+1)大小,其(i,j)位置的元素值为:其中,σ为高斯分布标准差,M(i,j)为高斯滤波器M在矩阵位置(i,j)处的值,(i,j)取值范围均为[1,2k+1]的整数;本步骤获得与输入图像尺度一致,用于生成深度图像的视差图;步骤3、深度图像生成:根据多视图几何学中视差图与深度图的几何变换关系,根据下式的转换规则,生成对应的深度图像:depthij=b×f/dij式中:dij为像素坐标(i,j)处的视差值,depthij为像素坐标(i,j)处的深度值,b为已知相机基线距离,f为相机焦距。根据获得与输入单目图像对应的深度图像,完成单目场景深度估计。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910573787.3/,转载请声明来源钻瓜专利网。