[发明专利]一种基于卷积神经网络的立体图像视觉显著性检测方法有效
申请号: | 201910327556.4 | 申请日: | 2019-04-23 |
公开(公告)号: | CN110175986B | 公开(公告)日: | 2021-01-08 |
发明(设计)人: | 周武杰;吕营;雷景生;张伟;何成;王海江 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T7/50;G06N3/04 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 立体 图像 视觉 显著 检测 方法 | ||
1.一种基于卷积神经网络的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为{Dn(x,y)}、其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架和解码框架,编码框架由RGB特征提取模块、深度特征提取模块和特征融合模块三部分组成,RGB特征提取模块由第1个至第4个神经网络块、第1个至第3个下采样块组成,深度特征提取模块由第5个至第8个神经网络块、第4个至第6个下采样块组成,特征融合模块由第9个至第15个神经网络块、第1个至第4个最大池化层组成,解码框架由第16个至第19个神经网络块、第1个至第4个上采样层组成;输出层由第一卷积层、第一批标准化层和第一激活层组成,第一卷积层的卷积核大小为3×3、步幅大小为1、卷积核个数为1、填充为1,第一激活层的激活方式为“Sigmoid”;
对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;
对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;
对于RGB特征提取模块,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第1个下采样块的输入端接收P1中的所有特征图,第1个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X1;第2个神经网络块的输入端接收X1中的所有特征图,第2个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P2;第2个下采样块的输入端接收P2中的所有特征图,第2个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X2;第3个神经网络块的输入端接收X2中的所有特征图,第3个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第3个下采样块的输入端接收P3中的所有特征图,第3个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X3;第4个神经网络块的输入端接收X3中的所有特征图,第4个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;
对于深度特征提取模块,第5个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第5个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P5;第4个下采样块的输入端接收P5中的所有特征图,第4个下采样块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X4;第6个神经网络块的输入端接收X4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;第5个下采样块的输入端接收P6中的所有特征图,第5个下采样块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X5;第7个神经网络块的输入端接收X5中的所有特征图,第7个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第6个下采样块的输入端接收P7中的所有特征图,第6个下采样块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为X6;第8个神经网络块的输入端接收X6中的所有特征图,第8个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;
对于特征融合模块,第9个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第9个神经网络块的输出端输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第10个神经网络块的输出端输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出3幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第11个神经网络块的输入端接收E1中的所有特征图,第11个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P11;对P1中的所有特征图、P5中的所有特征图和P11中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E2;第1个最大池化层的输入端接收E2中的所有特征图,第1个最大池化层的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z1;第12个神经网络块的输入端接收Z1中的所有特征图,第12个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;对P2中的所有特征图、P6中的所有特征图和P12中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第2个最大池化层的输入端接收E3中的所有特征图,第2个最大池化层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z2;第13个神经网络块的输入端接收Z2中的所有特征图,第13个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;对P3中的所有特征图、P7中的所有特征图和P13中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4;第3个最大池化层的输入端接收E4中的所有特征图,第3个最大池化层的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z3;第14个神经网络块的输入端接收Z3中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P4中的所有特征图、P8中的所有特征图和P14中的所有特征图进行Element-wise Summation操作,Element-wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第4个最大池化层的输入端接收E5中的所有特征图,第4个最大池化层的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为Z4;第15个神经网络块的输入端接收Z4中的所有特征图,第15个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;
对于解码框架,第1个上采样层的输入端接收P15中的所有特征图,第1个上采样层的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S1;第16个神经网络块的输入端接收S1中的所有特征图,第16个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16;第2个上采样层的输入端接收P16中的所有特征图,第2个上采样层的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S2;第17个神经网络块的输入端接收S2中的所有特征图,第17个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第3个上采样层的输入端接收P17中的所有特征图,第3个上采样层的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为S3;第18个神经网络块的输入端接收S3中的所有特征图,第18个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第4个上采样层的输入端接收P18中的所有特征图,第4个上采样层的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为S4;第19个神经网络块的输入端接收S4中的所有特征图,第19个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P19;
对于输出层,第一卷积层的输入端接收P19中的所有特征图,第一卷积层的输出端输出一幅宽度为W且高度为H的特征图;第一批标准化层的输入端接收第一卷积层的输出端输出的特征图;第一激活层的输入端接收第一批标准化层的输出端输出的特征图;第一激活层的输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;
步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将与之间的损失函数值记为采用均方误差损失函数获得;
步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:令表示待测试的宽度为W'且高度为H'的立体图像,将的左视点图像和深度图像对应记为和其中,1≤x'≤W',1≤y'≤H',表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值;
步骤2_2:将和输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到的显著性预测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910327556.4/1.html,转载请声明来源钻瓜专利网。