[发明专利]一种双通道注意力机制的深度卷积网络目标识别方法在审
申请号: | 202211090432.7 | 申请日: | 2022-09-07 |
公开(公告)号: | CN115601583A | 公开(公告)日: | 2023-01-13 |
发明(设计)人: | 王俊杰;赵立业;黄程韦 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周蔚然 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 双通道 注意力 机制 深度 卷积 网络 目标 识别 方法 | ||
本发明公开了一种双通道注意力机制的深度卷积网络目标识别方法,包括以下步骤,构建卷积神经网络,以单个样本对作为输入,提取高维特征图;分别构建空间注意力与通道注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算空间维度上特征像素间的相关性并与原始特征逐元相加;将空间与通道注意力机制模块的输出在通道维度上堆叠,获得模型最终的特征表示;构建训练样本对,同类目标通过数据增强扩充规模,不同类目标直接成对;计算交叉熵损失通过随机梯度下降学习网络参数,得到具有区分目标类别能力的神经网络模型。通过本发明可以在单样本场景下以及对于未参与训练的目标类别提升视觉目标图像识别的准确率。
技术领域
本发明属于模式识别的技术领域,具体涉及一种双通道注意力机制的深度卷积网络目标识别方法。
背景技术
近十年来,深度学习在计算机视觉领域取得了巨大成功,越来越多的研究人员开始关注神经网络在目标识别中的应用。
尽管神经网络模型在大多目标识别任务中取得了较为出色的结果,但在实际生产环境下仍面临诸如种类繁多、训练样本不足、类内细粒度变化、类别的增加等挑战。神经网络是一种典型的监督学习算法,其依赖大规模已标记的训练数据集,而数据成本是我们无法忽视的,因此往往无法为每一类目标采集足够多的图像用于训练;此外,在面对频繁变动的类别时,较为典型的神经网络分类模型无法有效处理未参与训练的类别,这也是该技术在实际应用之前需要解决的问题之一。
发明内容
为解决上述问题,本发明公开了一种双通道注意力机制的深度卷积网络目标识别方法,该发明能够在每类目标仅有一张训练图像样本的前提下实现对视觉目标的自动分类。
为达到上述目的,本发明的技术方案如下:
一种双通道注意力机制的深度卷积网络目标识别方法,包括以下步骤,
步骤1:构建卷积神经网络,以图像样本对作为输入,提取高维特征图;
步骤2:构建空间注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算空间维度上特征像素间的相关性并与原始特征逐元相加;
步骤3:构建通道注意力机制模块,以神经网络提取的两幅高维特征图作为输入,计算通道维度上特征通道间的相关性并与原始特征逐元相加;
步骤4:将空间注意力机制模块与通道注意力机制模块的输出在通道维度上堆叠,获得模型最终的特征表示;
步骤5:构建训练样本对,同类目标通过数据增强扩充规模,不同类目标直接成对;
步骤6:计算交叉熵损失通过随机梯度下降学习网络参数,得到具有区分目标类别能力的神经网络模型。
进一步的,在本发明中:所述步骤1还包括,
步骤1-1:构建卷积神经网络,包含17个卷积层,其中头部卷积层由64个7×7尺寸卷积核构成且步长为2,从而对输入图像进行0.5倍下采样并将特征图通道数升至64维;最大值池化层采用3×3的窗口尺寸,步长为2,用于对特征图进行0.5倍下采样;除头部卷积层外每2个采用3×3尺寸卷积核的卷积层以直连结构组成一个残差模块,共计8个残差模块,每个残差块中的首个卷积层步长为2,其余为1,卷积核数量随网络深度增加而不断增加,最终提取得到尺寸为输入图像的1/32、通道数升维至512维的高维特征图网络权重通过随机初始化得到并在训练过程中通过反向传播不断更新;
步骤1-2:构建两路完全相同的如步骤1-1所述的卷积神经网络,每一路接收图像样本对中的一幅图像作为输入,分别输出高维特征图F1与F2。
进一步的,在本发明中:所述步骤2还包括,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211090432.7/2.html,转载请声明来源钻瓜专利网。