[发明专利]一种交互循环特征重塑的显著性图像检测方法在审
申请号: | 202011413838.5 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112529862A | 公开(公告)日: | 2021-03-19 |
发明(设计)人: | 周武杰;郭沁玲;雷景生;万健;钱小鸿;叶宁;甘兴利 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06T9/00;G06N3/04;G06N3/08;G06T3/40;G06T5/30;G06T5/50 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 交互 循环 特征 重塑 显著 图像 检测 方法 | ||
1.一种交互循环特征重塑的显著性图像检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1_1:选取N对原始3D图像及每对原始3D图像对应的标签图像,将第k对原始3D图像的RGB图像记为将第k对原始3D图像的深度图像记为将第k对原始3D图像对应的真实显著检测图像作为标签图像,并记为然后将所有原始3D图像的RGB图像、深度图像、对应的标签图像构成训练集;其中,N为正整数,N≥200,k为正整数,1≤k≤N,1≤x≤W,1≤y≤H,W表示原始3D图像及其RGB图像、深度图像、对应的标签图像的宽度,H表示原始3D图像及其RGB图像、深度图像、对应的标签图像的高度,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_2:构建端到端的卷积神经网络:该卷积神经网络包括输入层、编码部分、解码部分和输出层,输入层包括RGB图输入层和深度图输入层,编码部分包括10个神经网络块,解码部分包括2个信息提取块、5个特征重塑块、4个信息重塑块、5个膨胀卷积块、5个特征聚合块;输出层包括输出卷积层,输出卷积层的卷积核大小为3×3、卷积核个数为1、步长为1;
对于输入层中的RGB图输入层,其输入端接收一幅原始RGB图像的R通道分量、G通道分量和B通道分量,其输出端输出原始RGB图像的R通道分量、G通道分量和B通道分量给编码部分;其中,原始RGB图像的宽度为W、高度为H;
对于输入层中的深度图输入层,其输入端接收一幅原始深度图像通过采用复制方法处理成的三通道深度图,其输出端输出三通道深度图给编码部分;其中,原始深度图像的宽度为W、高度为H;
对于编码部分,第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块依次连接构成彩色编码流,第6个神经网络块、第7个神经网络块、第8个神经网络块、第9个神经网络块、第10个神经网络块依次连接构成深度编码流;第1个神经网络块的输入端接收RGB图输入层的输出端输出的原始RGB图像的R通道分量、G通道分量和B通道分量,第1个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为S1,S1中的每幅特征图的宽度为W、高度为H;第2个神经网络块的输入端接收S1中的所有特征图,第2个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为S2,S2中的每幅特征图的宽度为高度为第3个神经网络块的输入端接收S2中的所有特征图,第3个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为S3,S3中的每幅特征图的宽度为高度为第4个神经网络块的输入端接收S3中的所有特征图,第4个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S4,S4中的每幅特征图的宽度为高度为第5个神经网络块的输入端接收S4中的所有特征图,第5个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为S5,S5中的每幅特征图的宽度为高度为第6个神经网络块的输入端接收深度图输入层的输出端输出的三通道深度图,第6个神经网络块的输出端输出64幅特征图,将这64幅特征图构成的集合记为D1,D1中的每幅特征图的宽度为W、高度为H;第7个神经网络块的输入端接收D1中的所有特征图,第7个神经网络块的输出端输出128幅特征图,将这128幅特征图构成的集合记为D2,D2中的每幅特征图的宽度为高度为第8个神经网络块的输入端接收D2中的所有特征图,第8个神经网络块的输出端输出256幅特征图,将这256幅特征图构成的集合记为D3,D3中的每幅特征图的宽度为高度为第9个神经网络块的输入端接收D3中的所有特征图,第9个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D4,D4中的每幅特征图的宽度为高度为第10个神经网络块的输入端接收D4中的所有特征图,第10个神经网络块的输出端输出512幅特征图,将这512幅特征图构成的集合记为D5,D5中的每幅特征图的宽度为高度为编码部分提供S1、S2、S3、S4、S5、D1、D2、D3、D4、D5中的所有特征图给解码部分;
对于解码部分,第1个信息提取块的输入端接收D1中的所有特征图,第1个信息提取块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F1,F1中的每幅特征图的宽度为W、高度为H;第1个特征重塑块的第一输入端接收S1中的所有特征图,第1个特征重塑块的第二输入端接收F1中的所有特征图,第1个特征重塑块的输出端输出64幅特征图,将这64幅特征图构成的集合记为F2,F2中的每幅特征图的宽度为W、高度为H;第1个信息重塑块的第一输入端接收F2中的所有特征图,第1个信息重塑块的第二输入端接收D2中的所有特征图,第1个信息重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F3,F3中的每幅特征图的宽度为高度为第2个特征重塑块的第一输入端接收S2中的所有特征图,第2个特征重塑块的第二输入端接收F3中的所有特征图,第2个特征重塑块的输出端输出128幅特征图,将这128幅特征图构成的集合记为F4,F4中的每幅特征图的宽度为高度为第2个信息重塑块的第一输入端接收F4中的所有特征图,第2个信息重塑块的第二输入端接收D3中的所有特征图,第2个信息重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F5,F5中的每幅特征图的宽度为高度为第3个特征重塑块的第一输入端接收S3中的所有特征图,第3个特征重塑块的第二输入端接收F5中的所有特征图,第3个特征重塑块的输出端输出256幅特征图,将这256幅特征图构成的集合记为F6,F6中的每幅特征图的宽度为高度为第3个信息重塑块的第一输入端接收F6中的所有特征图,第3个信息重塑块的第二输入端接收D4中的所有特征图,第3个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F7,F7中的每幅特征图的宽度为高度为第4个特征重塑块的第一输入端接收S4中的所有特征图,第4个特征重塑块的第二输入端接收F7中的所有特征图,第4个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F8,F8中的每幅特征图的宽度为高度为第4个信息重塑块的第一输入端接收F8中的所有特征图,第4个信息重塑块的第二输入端接收D5中的所有特征图,第4个信息重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F9,F9中的每幅特征图的宽度为高度为第5个特征重塑块的第一输入端接收S5中的所有特征图,第5个特征重塑块的第二输入端接收F9中的所有特征图,第5个特征重塑块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F10,F10中的每幅特征图的宽度为高度为第2个信息提取块的输入端接收S5中的所有特征图,第2个信息提取块的输出端输出512幅特征图,将这512幅特征图构成的集合记为F11,F11中的每幅特征图的宽度为高度为第1个膨胀卷积块的输入端接收D1中的所有特征图,第1个膨胀卷积块的输出端输出64幅特征图,将这64幅特征图构成的集合记为P1,P1中的每幅特征图的宽度为W、高度为H;第2个膨胀卷积块的输入端接收D2中的所有特征图,第2个膨胀卷积块的输出端输出128幅特征图,将这128幅特征图构成的集合记为P2,P2中的每幅特征图的宽度为高度为第3个膨胀卷积块的输入端接收D3中的所有特征图,第3个膨胀卷积块的输出端输出256幅特征图,将这256幅特征图构成的集合记为P3,P3中的每幅特征图的宽度为高度为第4个膨胀卷积块的输入端接收D4中的所有特征图,第4个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P4,P4中的每幅特征图的宽度为高度为第5个膨胀卷积块的输入端接收D5中的所有特征图,第5个膨胀卷积块的输出端输出512幅特征图,将这512幅特征图构成的集合记为P5,P5中的每幅特征图的宽度为高度为第1个特征聚合块的第一输入端接收F10中的所有特征图,第1个特征聚合块的第二输入端接收P5中的所有特征图,第1个特征聚合块的第三输入端接收F11中的所有特征图,第1个特征聚合块的输出端输出256幅特征图,将这256幅特征图构成的集合记为A1,A1中的每幅特征图的宽度为高度为第2个特征聚合块的第一输入端接收F8中的所有特征图,第2个特征聚合块的第二输入端接收P4中的所有特征图,第2个特征聚合块的第三输入端接收A1中的所有特征图,第2个特征聚合块的输出端输出128幅特征图,将这128幅特征图构成的集合记为A2,A2中的每幅特征图的宽度为高度为第3个特征聚合块的第一输入端接收F6中的所有特征图,第3个特征聚合块的第二输入端接收P3中的所有特征图,第3个特征聚合块的第三输入端接收A2中的所有特征图,第3个特征聚合块的输出端输出64幅特征图,将这64幅特征图构成的集合记为A3,A3中的每幅特征图的宽度为高度为第4个特征聚合块的第一输入端接收F4中的所有特征图,第4个特征聚合块的第二输入端接收P2中的所有特征图,第4个特征聚合块的第三输入端接收A3中的所有特征图,第4个特征聚合块的输出端输出32幅特征图,将这32幅特征图构成的集合记为A4,A4中的每幅特征图的宽度为高度为第5个特征聚合块的第一输入端接收F2中的所有特征图,第5个特征聚合块的第二输入端接收P1中的所有特征图,第5个特征聚合块的第三输入端接收A4中的所有特征图,第5个特征聚合块的输出端输出16幅特征图,将这16幅特征图构成的集合记为A5,A5中的每幅特征图的宽度为W、高度为H;解码部分提供A5中的所有特征图给输出层;
对于输出层,其输出卷积层的输入端接收A5中的所有特征图,其输出卷积层的输出端输出一幅宽度为W、高度为H的特征图,作为显著性检测图;
步骤1_3:将训练集中的所有原始3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络中进行训练,得到每对原始3D图像对应的显著性检测图,将第k对原始3D图像对应的显著性检测图记为其中,表示中坐标位置为(x,y)的像素点的像素值;
步骤1_4:计算每对原始3D图像对应的显著性检测图与对应的标签图像之间的损失函数值,将与之间的损失函数值记为
步骤1_5:重复执行步骤1_3和步骤1_4共M次,得到卷积神经网络训练模型,共得到N×M个损失函数值;然后将每次执行得到的N个损失函数值的和除以N作为该次执行得到的最终损失函数值,共得到M个最终损失函数值;再从M个最终损失函数值中找出值最小的最终损失函数值,将最小的最终损失函数值相应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项;其中,M>1;
所述的测试阶段过程的具体步骤为:
步骤2_1:将待显著性检测的3D图像的RGB图像的R通道分量、G通道分量和B通道分量及深度图像经复制后得到的三通道深度图输入到卷积神经网络训练模型中,并利用最优权值矢量和最优偏置项进行预测,预测得到对应的显著性预测图像。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011413838.5/1.html,转载请声明来源钻瓜专利网。