[发明专利]一种基于级联几何上下文神经网络的双目视差估计方法有效

申请号：	201811038173.7	申请日：	2018-09-06
公开（公告）号：	CN109472819B	公开（公告）日：	2021-12-28
发明（设计）人：	张运辉;吴子朝;王毅刚	申请（专利权）人：	杭州电子科技大学
主分类号：	G06T7/55	分类号：	G06T7/55;G06N3/04;G06N3/08
代理公司：	杭州君度专利代理事务所(特殊普通合伙) 33240	代理人：	朱月芬
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于级联几何上下文神经网络双目视差估计方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于，该方法具体包括以下步骤：

步骤(1)：图像预处理；对带有参考实参图的双目图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；

步骤(2)：构造级联卷积神经网络CGCNet；包括以下网络层：

2-1.构造粗略视差图像估计层；该网络层由几何上下文网络GCNet网络构成；

2-2.构造视差求精层；该网络层为RefineNet，将步骤2-1中生成的粗糙视差图输入构造视差求精层，输出的结果便是精确的视差图；

其中RefineNet网络为沙漏形状；该网络使用反卷积将特征图放大，使得其输出图像的大小与输入图像的大小保持一致；RefineNet的输入是左图I_L和右图I_R，通过GCNet输出的视差值，构建了一个表示合成的左图，即对输入的右图I_R的x坐标与视差图值进行相加得到其数学表达式如下：

并将Error输入网络中，辅助网络更好地学习，Error的计算公式如下：

RefineNet在5个尺度上使用了残差结构，该五个尺度分别为原图大小的1/16,1/8，1/4，1/2,1/1；网络在每个尺度上都学习了一个残差，用数学表示如下：

其中，N为该网络中总尺度数量；当n＝0时，为当前结构的输出，当n0时，只辅助网络学习，是GCNet输出的视差图，r₂⁽ⁿ⁾是每层上的残差；对于不同尺度的监督信息，利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度；

步骤(3)：网络训练；收集数据集，对网络进行有监督的反向传播算法训练，包含以下步骤：

3-1.对训练数据进行预处理；

3-2.将数据输入GCNet进行训练得到粗糙视差图；

3-3.将粗糙视差图输入RefineNet进行训练，并利用难例挖掘进行有监督的反向传播训练；

3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重，利用这些权重将网络级联进行端到端的训练；

步骤(4)：求视差图；

从Kitti2015测试数据集中取双目图像对进行测试，对测试图像对进行步骤(1)的预处理，接着将预处理后的图像对输入到步骤(3)中训练完成的网络，最终得到相应的视差图。

2.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于：

所述的步骤(2)中，构造级联卷积神经网络CGCNet；具体为：

2-1.GCnet网络结合二维和三维卷积神经网络学习图像的特征，计算匹配代价，输出视差图；其首先利用5*5的卷积核减小特征图的大小，即对特征图进行降采样，降采样层的步长为2，即将特征图的大小缩小了32倍；再用6个残差模块去学习特征，且用3d卷积进行上下文学习；接着利用这些左右图的特征计算匹配代价，计算匹配代价的具体方法为：左图固定，将右图做偏移，再与左图对应像素相乘得到匹配代价量，该量的维度为高*宽*(最大视差值+1)*特征图通道；并且通过softargmin输出视差图。

3.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于：

所述的步骤(3)中，收集的数据集来源于两个开源数据库，Sceneflow和KITTI，网络训练在TensorFlow框架下进行，且利用L1 loss进行训练监督，L1 loss收敛时说明网络训练完成，其数学表达式如下:

其中N表示图像中的总像素数，d_n表示RefineNet网络中预测出来的视差图，表示已有的标准视差图ground truth；

3-1.预处理包括图像数据填充和随机裁剪；先对Kitti数据集中的图像进行填充达到分辨率一致的效果，填充后的图像分辨率为1248*384；接着对高分辨率图像进行随机裁剪处理，得到512*256的子图像作为网络训练学习的样本，以此来加快网络训练速度；

3-2.GCNet网络的训练过程由两部分组成，先使用Sceneflow数据集对网络进行预训练，得到一个预训练模型，然后使用Kitti数据集对预训练模型进行微调训练，以此完成GCNet网络的训练；

3-3.难例挖掘的操作方式是对RefineNet输出的loss进行降序排，并只对排序后的前三分之一求和作为新的loss进行反向传播训练。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811038173.7/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于深度神经网络的图像去雾方法
下一篇：单目RGB-D相机实时人脸重建方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06T 一般的图像数据处理或产生
G06T7-00 图像分析，例如从位像到非位像
G06T7-20 .运动分析
G06T7-40 .结构分析
G06T7-60 .图形属性的分析，例如一个图像的区域、重心、周边

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于级联几何上下文神经网络的双目视差估计方法有效

专利文献下载