[发明专利]一种基于注意力机制的阴影检测方法有效

申请号：	202010446473.X	申请日：	2020-05-25
公开（公告）号：	CN111639692B	公开（公告）日：	2022-07-22
发明（设计）人：	陈啟超;黄刚;张敏	申请（专利权）人：	南京邮电大学
主分类号：	G06V10/774	分类号：	G06V10/774;G06V10/80;G06V10/82;G06N3/04;G06N3/08
代理公司：	南京瑞弘专利商标事务所(普通合伙) 32249	代理人：	彭雄
地址：	210000 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于注意力机制阴影检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于注意力机制的阴影检测方法，其特征在于，包括以下步骤：

步骤1)，获取用于训练系统的待处理公用阴影数据集；

步骤2)，从摄像头或本地硬盘获取待检测图像；

步骤3)，预处理用于训练系统的公用阴影数据集并获得对应的训练集与测试集；

步骤4)，预处理待检测图像；

步骤5)，核心神经网络各模块的搭建与融合，组成基于注意力机制的卷积神经网络；

所述步骤5核心神经网络各模块的搭建，包括预训练卷积神经网络Resnet50的搭建与微调、并行卷积模块的搭建、注意力模块CBAM的改进与搭建、上采样与输出模块的搭建：

所述预训练卷积神经网络Resnet50包括：1个7×7卷积层，通道数为64，步数为2；1个3×3最大池化层，步数为2；3个重复的残差卷积块，每个卷积块包括1个通道数为64的1×1卷积层、1个通道数为64的3×3卷积层、1个通道数为256的1×1卷积层；4个重复的残差卷积块，每个卷积块包括1个通道数为128的1×1卷积层、1个通道数为128的3×3卷积层、1个通道数为512的1×1卷积层；6个重复的残差卷积块，每个卷积块包括1个通道数为256的1×1卷积层、1个通道数为256的3×3卷积层、1个通道数为1024的1×1卷积层；3个重复的残差卷积块，每个卷积块包括1个通道数为512的1×1卷积层、1个通道数为512的3×3卷积层、1个通道数为2048的1×1卷积层以及各残差卷积块间用于下采样的卷积层；

所述并行卷积模块包括两类残差卷积模块，记为第一类残差卷积模块、第二类残差卷积模块；

所述第一类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加，5个卷积层分别为通道数为c的3×3卷积层、通道数为c的5×5卷积层、通道数为2c的5×5卷积层、通道数为4c的5×5卷积层、通道数为c的1×1卷积层，使用激活函数Relu优化，所述Relu激活函数为Relu(q)＝max(0,q)，其中q为单个神经元的加权求和值；

所述第二类残差卷积模块将形状为(n,c,x,y)的特征图顺序输入5个卷积层，其中n为批量大小，c为特征图通道数，x和y表示特征图尺寸，再将输出结果与原始特征图相加；5个卷积层分别为通道数为4c的1×1卷积层、通道数为4c的3×3卷积层、通道数为2c的3×3卷积层、通道数为c的3×3卷积层、通道数为c的3×3卷积层，使用激活函数Relu优化；

所述注意力模块CBAM包括空间域注意力生成模块SAM、空间域注意力生成模块CAM和注意力融合模块；

空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，为空间域平局池化生成矩阵，为空间域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作；

通道域生成模块的计算流程：

其中，M_c(F)为通道域注意力矩阵，为通道域平局池化生成矩阵，为通道域最大池化生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，MLP为一种多层感知机；

注意力融合模块的计算流程：

F_Attention＝F×M_s(F)×M_c(F×M_s(F)) (3)

其中，F_Attention为融合注意力的新特征图，M_s(F)为空间域注意力矩阵，M_c(F)为通道域注意力矩阵；

所述注意力模块CBAM的改进包括改进空间域生成模块和改进注意力融合模块，

其中所述改进空间域生成模块，具体为在CBAM空间域生成模块添加通道数为1的卷积层，与原有平均池化、最大池化结果连接再输入7×7降维卷积层，输出空间域注意力矩阵：

改进后的空间域生成模块的计算流程：

其中，M_s(F)为空间域注意力矩阵，为空间域平局池化生成矩阵，为空间域最大池化生成矩阵，为空间域卷积生成矩阵，AvgPool、MaxPool和Sigmoid分别代表平均池化操作、最大池化操作和Sigmoid转化，f^7×7为卷积核尺寸为7×7的卷积操作，Conv为一种目标通道数为1的卷积操作；