[发明专利]一种基于注意力机制的非对称多模态融合显著性检测方法在审

申请号：	202010291052.4	申请日：	2020-04-14
公开（公告）号：	CN111563418A	公开（公告）日：	2020-08-21
发明（设计）人：	周武杰;张欣悦;雷景生;靳婷;史文彬	申请（专利权）人：	浙江科技学院
主分类号：	G06K9/00	分类号：	G06K9/00;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	林超
地址：	310023 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制称多融合显著检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于包括训练阶段和测试阶段两个过程；

所述的训练阶段过程的具体步骤为：

步骤1.1)：采集选取带有目标物体的n幅原始立体图像的RGB图、深度图并和标注获得的真实人眼注释图构成训练集，并采用HHA方法将训练集中的深度图均处理为与原始立体图像一样具有三通道的集合Hⁱ；

步骤1.2)：构建的卷积神经网络；

步骤1.3)：将训练集中的原始立体图像的RGB图和深度图作为输入，输入到所构建的卷积神经网络中进行训练，得到原始立体图像对应的显著性检测图，将训练完成得到的显著性检测图构成的集合记为

步骤1.4)：计算训练得到的显著性检测图构成的集合与对应的真实人眼注视图像{Gⁱ(x，y)}构成的集合之间的损失函数值记为

步骤1.5)：不断重复执行步骤1.3)和步骤1.4)迭代进行m次，得到卷积神经网络分类训练模型，并共得到n×m个损失函数值，然后从n×m个损失函数值中找出值最小的损失函数值，接着将最小的损失函数值对应的卷积神经网络的权值矢量和偏置项保留，作为训练后的卷积神经网络的最优权值矢量W^Best和最优偏置项B^Best；

所述的测试阶段过程的具体步骤为：

步骤2.1)：将目标物体待检测的RGB图和深度图的组合的R通道分量、G通道分量和B通道分量输入训练后的卷积神经网络中，并利用的最优权值矢量W^Best和最优偏置项B^Best进行预测，得到对应的显著性检测图像其中表示中坐标位置为(x′，y′)的像素点的像素值。

2.根据权利要求1所述的一种基于注意力机制的非对称多模态融合显著性检测方法，其特征在于：

所述的步骤1.2)中的卷积神经网络包括输入层和隐层，隐层输出即为卷积神经网络的输出：

所述的输入层的输入端输入原始立体图像的RGB图和深度图，输入层的输出端输出原始立体图像的RGB图的R通道分量、G通道分量和B通道分量以及深度图的编码图，输入层的输出量是隐层的输入量；其中，深度图在输入层中经过HHA编码方式处理后与RGB图一样具有三通道形成深度图的编码图，且原始立体图像的RGB图和深度图的宽度相同均为W、高度相同均为H；

所述隐层的组成部分：十个神经网络块、通道注意力模块、内部感知模块、空间力注意模块SAM和四个解码块；

对于深度图的处理：

第1个神经网络块由第一卷积层、第一激活层、第二卷积层、第二激活层和第一最大池化层依次连接组成，输入为输入层输出的深度图的编码图，输出是经过处理后的64幅特征图构成第一深度特征图集合D₁，每幅图的宽度为高度为

第2个神经网络块由第三卷积层、第三激活层、第四卷积层、第四激活层、第二最大池化层组成，输入为第1个神经网络块输出的64幅特征图，输出128幅特征图构成第二深度特征图集合D₂，每幅图的宽度为高度为

第3个神经网络块的输入是第2个神经网络块输出的128幅特征图，输出为256幅特征图构成第三深度特征图集合D₃，每幅图的宽度为高度为

第4个神经网络块的输入是第3个神经网络块输出的256幅特征图，输出为512幅特征图构成第四深度特征图集合D₄，每幅图的宽度为高度为

第5个神经网络块的输入是第4个神经网络块输出的512幅特征图，输出为512幅特征图构成第五深度特征图集合D₅，每幅图的宽度为高度为

由此深度图分别经第1个神经网络块到第5个神经网络块处理得到五个深度特征图集合，五个深度特征图集合分别为D₁、D₂、D₃、D₄、D₅；

对于RGB图的处理：

第6个神经网络块由第十一卷积层、第一归一层、第十一激活层和第六最大池化层组成，输入是三通道原始RGB图，输出是经过处理后的64幅特征图构成第一RGB特征图集合R₁，每幅图的宽度为高度为

第7个神经网络块的输入是第6个神经网络块输出的64幅特征图，输出是256幅特征图构成第二RGB特征图集合D₂，每幅图的宽度为高度为第7个神经网络块由连续三个卷积块组成；每一个卷积块是由连续四层卷积层连接构成，第四层卷积层输入为第三层卷积层的输出以及前一个卷积块的输出，经相加后输出为256幅特征图；

第8个神经网络块由连续四个卷积块组成，输入为第7个神经网络块输出的256幅特征图，输出为512幅特征图构成第三RGB特征图集合R₃，每幅图的宽度为高度为

第9个神经网络块由连续六个卷积块组成，输入为第8个神经网络块输出的512幅特征图，输出为1024幅特征图构成第四RGB特征图集合R₄，每幅图的宽度为高度为

第10个神经网络块由连续三个卷积块组成，输入为第9个神经网络块输出的1024幅特征图，输出为2048幅特征图构成第五RGB特征图集合R₅，每幅图的宽度为高度为

由此RGB图分别经第6个神经网络块到第10个神经网络块处理得到五个RGB特征图集合，五个RGB特征图集合分别为R₁、R₂、R₃、R₄、R₅；

然后，第一深度特征图集合D₁和第一RGB特征图集合R₁均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出128幅特征图，作为第一特征图集a；第二深度特征图集合D₂和第二RGB特征图集合R₂均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出384幅特征图，作为第二特征图集b；第三深度特征图集合D₃和第三RGB特征图集合R₃均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出768幅特征图，作为第三特征图集c；第四深度特征图集合D₄和第四RGB特征图集合R₄均经各自的通道注意力模块CAM处理后进行通道数叠操作后输出1536幅特征图，作为第四特征图集d；

第五RGB特征图集合R₅经过内部感知模块IPM处理后获得感知特征图集F，感知特征图集F和第五深度特征图集合D₅一起共同输入到空间注意力模块SAM，空间注意力模块SAM的输出和第四特征图集d一起经通道数叠后输入到第1个解码块，第1个解码块的输出和第三特征图集c一起经通道数叠后输入到第2个解码块，第2个解码块的输出和第二特征图集b一起经通道数叠后输入到第3个解码块，第3个解码块的输出和第一特征图集a一起经通道数叠后输入到第4个解码块，第4个解码块输出作为隐层的输出，即为最终显著性预测图。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江科技学院，未经浙江科技学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010291052.4/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于注意力机制的非对称多模态融合显著性检测方法在审

专利文献下载