[发明专利]一种基于注意力机制的非对称多模态融合显著性检测方法在审
申请号: | 202010291052.4 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111563418A | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 周武杰;张欣悦;雷景生;靳婷;史文彬 | 申请(专利权)人: | 浙江科技学院 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 林超 |
地址: | 310023 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 称多 融合 显著 检测 方法 | ||
1.一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;
所述的训练阶段过程的具体步骤为:
步骤1.1):采集选取带有目标物体的n幅原始立体图像的RGB图、深度图并和标注获得的真实人眼注释图构成训练集,并采用HHA方法将训练集中的深度图均处理为与原始立体图像一样具有三通道的集合Hi;
步骤1.2):构建的卷积神经网络;
步骤1.3):将训练集中的原始立体图像的RGB图和深度图作为输入,输入到所构建的卷积神经网络中进行训练,得到原始立体图像对应的显著性检测图,将训练完成得到的显著性检测图构成的集合记为
步骤1.4):计算训练得到的显著性检测图构成的集合与对应的真实人眼注视图像{Gi(x,y)}构成的集合之间的损失函数值记为
步骤1.5):不断重复执行步骤1.3)和步骤1.4)迭代进行m次,得到卷积神经网络分类训练模型,并共得到n×m个损失函数值,然后从n×m个损失函数值中找出值最小的损失函数值,接着将最小的损失函数值对应的卷积神经网络的权值矢量和偏置项保留,作为训练后的卷积神经网络的最优权值矢量WBest和最优偏置项BBest;
所述的测试阶段过程的具体步骤为:
步骤2.1):将目标物体待检测的RGB图和深度图的组合的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络中,并利用的最优权值矢量WBest和最优偏置项BBest进行预测,得到对应的显著性检测图像其中表示中坐标位置为(x′,y′)的像素点的像素值。
2.根据权利要求1所述的一种基于注意力机制的非对称多模态融合显著性检测方法,其特征在于:
所述的步骤1.2)中的卷积神经网络包括输入层和隐层,隐层输出即为卷积神经网络的输出:
所述的输入层的输入端输入原始立体图像的RGB图和深度图,输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图,输入层的输出量是隐层的输入量;其中,深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图,且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H;
所述隐层的组成部分:十个神经网络块、通道注意力模块、内部感知模块、空间力注意模块SAM和四个解码块;
对于深度图的处理:
第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层和第一最大池化层依次连接组成,输入为输入层输出的深度图的编码图,输出是经过处理后的64幅特征图构成第一深度特征图集合D1,每幅图的宽度为高度为
第2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成,输入为第1个神经网络块输出的64幅特征图,输出128幅特征图构成第二深度特征图集合D2,每幅图的宽度为高度为
第3个神经网络块的输入是第2个神经网络块输出的128幅特征图,输出为256幅特征图构成第三深度特征图集合D3,每幅图的宽度为高度为
第4个神经网络块的输入是第3个神经网络块输出的256幅特征图,输出为512幅特征图构成第四深度特征图集合D4,每幅图的宽度为高度为
第5个神经网络块的输入是第4个神经网络块输出的512幅特征图,输出为512幅特征图构成第五深度特征图集合D5,每幅图的宽度为高度为
由此深度图分别经第1个神经网络块到第5个神经网络块处理得到五个深度特征图集合,五个深度特征图集合分别为D1、D2、D3、D4、D5;
对于RGB图的处理:
第6个神经网络块由第十一卷积层、第一归一层、第十一激活层和第六最大池化层组成,输入是三通道原始RGB图,输出是经过处理后的64幅特征图构成第一RGB特征图集合R1,每幅图的宽度为高度为
第7个神经网络块的输入是第6个神经网络块输出的64幅特征图,输出是256幅特征图构成第二RGB特征图集合D2,每幅图的宽度为高度为第7个神经网络块由连续三个卷积块组成;每一个卷积块是由连续四层卷积层连接构成,第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出,经相加后输出为256幅特征图;
第8个神经网络块由连续四个卷积块组成,输入为第7个神经网络块输出的256幅特征图,输出为512幅特征图构成第三RGB特征图集合R3,每幅图的宽度为高度为
第9个神经网络块由连续六个卷积块组成,输入为第8个神经网络块输出的512幅特征图,输出为1024幅特征图构成第四RGB特征图集合R4,每幅图的宽度为高度为
第10个神经网络块由连续三个卷积块组成,输入为第9个神经网络块输出的1024幅特征图,输出为2048幅特征图构成第五RGB特征图集合R5,每幅图的宽度为高度为
由此RGB图分别经第6个神经网络块到第10个神经网络块处理得到五个RGB特征图集合,五个RGB特征图集合分别为R1、R2、R3、R4、R5;
然后,第一深度特征图集合D1和第一RGB特征图集合R1均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出128幅特征图,作为第一特征图集a;第二深度特征图集合D2和第二RGB特征图集合R2均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出384幅特征图,作为第二特征图集b;第三深度特征图集合D3和第三RGB特征图集合R3均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出768幅特征图,作为第三特征图集c;第四深度特征图集合D4和第四RGB特征图集合R4均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出1536幅特征图,作为第四特征图集d;
第五RGB特征图集合R5经过内部感知模块IPM处理后获得感知特征图集F,感知特征图集F和第五深度特征图集合D5一起共同输入到空间注意力模块SAM,空间注意力模块SAM的输出和第四特征图集d一起经通道数叠后输入到第1个解码块,第1个解码块的输出和第三特征图集c一起经通道数叠后输入到第2个解码块,第2个解码块的输出和第二特征图集b一起经通道数叠后输入到第3个解码块,第3个解码块的输出和第一特征图集a一起经通道数叠后输入到第4个解码块,第4个解码块输出作为隐层的输出,即为最终显著性预测图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010291052.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种猪油基通用起酥油及其制备方法
- 下一篇:斜顶脱模机构及铸造模具