[发明专利]一种基于深度卷积神经网络的单目视觉深度估计方法有效

专利信息
申请号: 201811229351.4 申请日: 2018-10-22
公开(公告)号: CN109448039B 公开(公告)日: 2021-12-10
发明(设计)人: 周武杰;袁建中;吕思嘉;钱亚冠;何成;王海江 申请(专利权)人: 浙江科技学院
主分类号: G06T7/50 分类号: G06T7/50
代理公司: 宁波奥圣专利代理有限公司 33226 代理人: 周珏
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度卷积神经网络的单目视觉深度估计方法,其先构建深度卷积神经网络,其包括输入层、隐层和输出层;隐层包括编码框架和译码框架;然后使用训练集中的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像;接着通过计算训练集中的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,得到深度卷积神经网络训练模型及最优权值矢量和最优偏置项;再将待预测的单目图像输入到深度卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项,预测得到对应的预测深度图像;优点是其预测精度高。
搜索关键词: 一种 基于 深度 卷积 神经网络 目视 估计 方法
【主权项】:
1.一种基于深度卷积神经网络的单目视觉深度估计方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅原始的单目图像及每幅原始的单目图像对应的真实深度图像,并构成训练集,将训练集中的第n幅原始的单目图像记为{Qn(x,y)},将训练集中与{Qn(x,y)}对应的真实深度图像记为其中,N为正整数,N≥1000,n为正整数,1≤n≤N,1≤x≤R,1≤y≤L,R表示{Qn(x,y)}和的宽度,L表示{Qn(x,y)}和的高度,R和L均能被2整除,Qn(x,y)表示{Qn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建深度卷积神经网络:深度卷积神经网络包括输入层、隐层和输出层;隐层包括编码框架和译码框架;对于输入层,输入层的输入端接收一幅原始输入图像,输入层的输出端输出原始输入图像给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为R、高度为L;对于编码框架,其由依次设置的第一卷积层、第一批规范化层、第一激活层、第一最大池化层、第一conv_block网络块、第一identity_block网络块、第二identity_block网络块、第二conv_block网络块、第三identity_block网络块、第四identity_block网络块、第五identity_block网络块、第三conv_block网络块、第六identity_block网络块、第七identity_block网络块、第八identity_block网络块、第四conv_block网络块、第九identity_block网络块、第十identity_block网络块组成,其中,第一卷积层的卷积核大小为1×1、卷积核个数为32、卷积步长采用默认值,第一批规范化层的参数采用默认值,第一激活层的激活函数采用ReLu,第一最大池化层的池化步长为2×2,第一conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为1×1,第一conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为64、卷积步长为采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为64、卷积步长采用默认值,第一identity_block网络块和第二identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为2×2,第二conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第二conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为128、卷积步长为采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为128、卷积步长采用默认值,第三identity_block网络块、第四identity_block网络块和第五identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为2×2,第三conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第三conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为256、卷积步长为采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为256、卷积步长采用默认值,第六identity_block网络块、第七identity_block网络块和第八identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第一个输入中的一个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长为2×2,第四conv_block网络块中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第四conv_block网络块中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第1个卷积层的卷积核大小为1×1、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第2个卷积层的卷积核大小为3×3、卷积核个数为512、卷积步长采用默认值,第九identity_block网络块和第十identity_block网络块各自中的融合层的第二个输入中按序设置的第3个卷积层的卷积核大小为1×1、卷积核个数为1024、卷积步长采用默认值;对于编码框架,第一卷积层的输入端接收输入层的输出端输出的原始输入图像,第一卷积层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为J1,其中,J1中的每幅特征图的宽度为R、高度为L;第一批规范化层的输入端接收J1中的所有特征图,第一批规范化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为P1,其中,P1中的每幅特征图的宽度为R、高度为L;第一激活层的输入端接收P1中的所有特征图,第一激活层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为H1,其中,H1中的每幅特征图的宽度为R、高度为L;第一最大池化层的输入端接收H1中的所有特征图,第一最大池化层的输出端输出32幅特征图,将输出的所有特征图构成的集合记为Z1,其中,Z1中的每幅特征图的宽度为高度为第一conv_block网络块的输入端接收Z1中的所有特征图,第一conv_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为C1,其中,C1中的每幅特征图的宽度为高度为第一identity_block网络块的输入端接收C1中的所有特征图,第一identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I1,其中,I1中的每幅特征图的宽度为高度为第二identity_block网络块的输入端接收I1中的所有特征图,第二identity_block网络块的输出端输出128幅特征图,将输出的所有特征图构成的集合记为I2,其中,I2中的每幅特征图的宽度为高度为第二conv_block网络块的输入端接收I2中的所有特征图,第二conv_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为C2,其中,C2中的每幅特征图的宽度为高度为第三identity_block网络块的输入端接收C2中的所有特征图,第三identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I3,其中,I3中的每幅特征图的宽度为高度为第四identity_block网络块的输入端接收I3中的所有特征图,第四identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I4,其中,I4中的每幅特征图的宽度为高度为第五identity_block网络块的输入端接收I4中的所有特征图,第五identity_block网络块的输出端输出256幅特征图,将输出的所有特征图构成的集合记为I5,其中,I5中的每幅特征图的宽度为高度为第三conv_block网络块的输入端接收I5中的所有特征图,第三conv_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为C3,其中,C3中的每幅特征图的宽度为高度为第六identity_block网络块的输入端接收C3中的所有特征图,第六identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I6,其中,I6中的每幅特征图的宽度为高度为第七identity_block网络块的输入端接收I6中的所有特征图,第七identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I7,其中,I7中的每幅特征图的宽度为高度为第八identity_block网络块的输入端接收I7中的所有特征图,第八identity_block网络块的输出端输出512幅特征图,将输出的所有特征图构成的集合记为I8,其中,I8中的每幅特征图的宽度为高度为第四conv_block网络块的输入端接收I8中的所有特征图,第四conv_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为C4,其中,C4中的每幅特征图的宽度为高度为第九identity_block网络块的输入端接收C4中的所有特征图,第九identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I9,其中,I9中的每幅特征图的宽度为高度为第十identity_block网络块的输入端接收I9中的所有特征图,第十identity_block网络块的输出端输出1024幅特征图,将输出的所有特征图构成的集合记为I10,其中,I10中的每幅特征图的宽度为高度为对于译码框架,其由依次设置的第一dense block网络块、第一transitionup网络块、第二dense block网络块、第二transitionup网络块、第三dense block网络块、第三transitionup网络块、第四dense block网络块、第四transitionup网络块、第二卷积层、第二批规范化层、第二激活层组成,其中,第一dense block网络块、第二dense block网络块、第三dense block网络块和第四dense block网络块中的参数采用默认值,第一transitionup网络块、第二transitionup网络块、第三transitionup网络块和第四transitionup网络块各自中的反卷积层的卷积核大小采用默认值、卷积核个数采用默认值、卷积步长为2×2,第二卷积层的卷积核大小为1×1、卷积核个数为1、卷积步长采用默认值,第二批规范化层的参数采用默认值,第二激活层的激活函数采用ReLu;对于译码框架,第一dense block网络块的输入端接收I10中的所有特征图,第一dense block网络块的输出端输出1184幅特征图,将输出的所有特征图构成的集合记为D1,其中,D1中的每幅特征图的宽度为高度为第一transitionup网络块的输入端接收D1中的所有特征图和I8中的所有特征图,第一transitionup网络块的输出端输出672幅特征图,将输出的所有特征图构成的集合记为T1,其中,T1中的每幅特征图的宽度为高度为第二dense block网络块的输入端接收T1中的所有特征图,第二dense block网络块的输出端输出832幅特征图,将输出的所有特征图构成的集合记为D2,其中,D2中的每幅特征图的宽度为高度为第二transitionup网络块的输入端接收D2中的所有特征图和I5中的所有特征图,第二transitionup网络块的输出端输出416幅特征图,将输出的所有特征图构成的集合记为T2,其中,T2中的每幅特征图的宽度为高度为第三dense block网络块的输入端接收T2中的所有特征图,第三denseblock网络块的输出端输出576幅特征图,将输出的所有特征图构成的集合记为D3,其中,D3中的每幅特征图的宽度为高度为第三transitionup网络块的输入端接收D3中的所有特征图和I2中的所有特征图,第三transitionup网络块的输出端输出288幅特征图,将输出的所有特征图构成的集合记为T3,其中,T3中的每幅特征图的宽度为高度为第四dense block网络块的输入端接收T3中的所有特征图,第四dense block网络块的输出端输出448幅特征图,将输出的所有特征图构成的集合记为D4,其中,D4中的每幅特征图的宽度为高度为第四transitionup网络块的输入端接收D4中的所有特征图和H1中的所有特征图,第四transitionup网络块的输出端输出192幅特征图,将输出的所有特征图构成的集合记为T4,其中,T4中的每幅特征图的宽度为R、高度为L;第二卷积层的输入端接收T4中的所有特征图,第二卷积层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二批规范化层的输入端接收第二卷积层的输出端输出的特征图,第二批规范化层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;第二激活层的输入端接收第二批规范化层的输出端输出的特征图,第二激活层的输出端输出1幅特征图,其中,输出的特征图的宽度为R、高度为L;对于输出层,输出层的输入端接收第二激活层的输出端输出的特征图,输出层的输出端输出一幅原始输入图像对应的估计深度图像;其中,估计深度图像的宽度为R、高度为L;步骤1_3:将训练集中的每幅原始的单目图像作为原始输入图像,输入到深度卷积神经网络中进行训练,得到训练集中的每幅原始的单目图像对应的估计深度图像,将{Qn(x,y)}对应的估计深度图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;步骤1_4:计算训练集中的每幅原始的单目图像对应的估计深度图像与对应的真实深度图像之间的损失函数值,将之间的损失函数值记为步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到训练好的深度卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为训练好的深度卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令{Q(x',y')}表示待预测的单目图像;其中,1≤x'≤R',1≤y'≤L',R'表示{Q(x',y')}的宽度,L'表示{Q(x',y')}的高度,Q(x',y')表示{Q(x',y')}中坐标位置为(x',y')的像素点的像素值;步骤2_2:将{Q(x',y')}输入到训练好的深度卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到{Q(x',y')}对应的预测深度图像,记为{Qdepth(x',y')};其中,Qdepth(x',y')表示{Qdepth(x',y')}中坐标位置为(x',y')的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811229351.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top