[发明专利]一种双通道注意力机制的深度卷积网络目标识别方法在审
申请号: | 202211090432.7 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115601583A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 王俊杰;赵立业;黄程韦 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周蔚然 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双通道 注意力 机制 深度 卷积 网络 目标 识别 方法 | ||
1.一种双通道注意力机制的深度卷积网络目标识别方法,其特征在于:包括以下步骤,
步骤1:构建卷积神经网络,以图像样本对作为输入,提取高维特征图;
步骤2:构建空间注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算空间维度上特征像素间的相关性并与原始特征逐元相加;
步骤3:构建通道注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算通道维度上特征通道间的相关性并与原始特征逐元相加;
步骤4:将空间注意力机制模块与通道注意力机制模块的输出在通道维度上堆叠,获得模型最终的特征表示;
步骤5:构建训练样本对,同类目标通过数据增强扩充规模,不同类目标直接成对;
步骤6:计算交叉熵损失通过随机梯度下降学习网络参数,得到具有区分目标类别能力的神经网络模型。
2.如权利要求1所述的一种双通道注意力机制的深度卷积网络目标识别方法,其特征在于:所述步骤1具体包括,
步骤1-1:构建卷积神经网络,包含17个卷积层,其中头部卷积层由64个7×7尺寸卷积核构成且步长为2,从而对输入图像进行0.5倍下采样并将特征图通道数升至64维;最大值池化层采用3×3的窗口尺寸,步长为2,用于对特征图进行0.5倍下采样;除头部卷积层外每2个采用3×3尺寸卷积核的卷积层以直连结构组成一个残差模块,共计8个残差模块,每个残差块中的首个卷积层步长为2,其余为1,卷积核数量随网络深度增加而不断增加,最终提取得到尺寸为输入图像的1/32、通道数升维至512维的高维特征图网络权重通过随机初始化得到并在训练过程中通过反向传播不断更新;
步骤1-2:构建两路完全相同的如步骤1-1所述的卷积神经网络,每一路接收图像样本对中的一幅图像作为输入,分别输出高维特征图F1与F2。
3.如权利要求2所述的一种双通道注意力机制的深度卷积网络目标识别方法,其特征在于:所述步骤2具体包括,
步骤2-1:对于步骤1所述的卷积神经网络提取到的原始高维特征图F∈RC×H×W,其中H、W、C分别表示特征图的高度、宽度和通道数,将其分别输入三组1×1卷积层从而获得三个新的特征图Fa、Fb、Fc,并将其宽高维度展平,即{Fa,Fb,Fc}∈RC×(H×W);随后,将Fa的转置与Fb相乘后经过Softmax函数得到空间注意力矩阵Ms∈R(H×W)×(H×W),具体为
其中,表示了第i个位置与第j个位置的特征像素间的相关性;T代表转置,Fa、Fb为卷积层输出的特征图;
步骤2-2:使Fc与Ms相乘并与原始高维特征F∈RC×H×W逐元相加,获得输出特征Fs,具体为
其中ηs为可训练的尺度因子,并初始化为0,用于避免过大,j为空间位置的下标。
4.如权利要求3所述的一种双通道注意力机制的深度卷积网络目标识别方法,其特征在于:所述步骤3具体包括,
步骤3-1:对于步骤1所述的神经网络提取到的高维特征图F∈RC×H×W,其中H、W、C分别表示特征图的高度、宽度和通道数,展平其宽高维度后以自身与自身的转置做乘积获得通道注意力矩阵Mt∈RC×C,令i,j代表空间第i个位置与第j个位置,T为转置运算,具体为
步骤3-2:使F与Mt相乘并与原始特征F∈RC×H×W逐元相加,获得输出特征Ft,具体为
其中ηt为可训练的尺度因子,并初始化为0,用于避免过大。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211090432.7/1.html,转载请声明来源钻瓜专利网。