[发明专利]一种基于注意力的细粒度图像识别方法在审
申请号: | 202310678774.9 | 申请日: | 2023-06-08 |
公开(公告)号: | CN116580289A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 李兰英;林成承 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/40;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 细粒度 图像 识别 方法 | ||
一种基于注意力的细粒度图像识别方法,属于图像分类技术领域,该方法通过空间深度模块、多尺度特征提取模块、上下文注意力感知模块和多头注意力模块来构建网络模型。通过空间深度模块加强模型的特征提取能力,减少因下采样导致的判别区域丢失;通过多尺度特征提取模块基于显著区域提取多尺度特征,以增强模型的识别准确率;通过上下文注意力感知模块学习各尺度特征间的局部联系;通过多头注意力模块学习多尺度特征的全局和长期联系;最后采用交叉熵损失函数和中心损失函数作为该网络的损失函数,通过扩大样本间的类间距离,缩小类内距离,以减少易混淆区域对模型识别精度的影响。该方法可以很好地解决细粒度图像识别中存在的由于网络层数的加深导致低层次信息丢失,以及忽略多尺度特征间的关系导致识别准确率低的问题。
技术领域
本发明属于细粒度图像处理技术领域,具体涉及一种基于注意力的细粒度图像识别方法。
背景技术
作为计算机视觉领域中的一个重要研究方向,图像识别是最基本的任务,同时也是其他各种视觉任务的基础。作为图像识别领域延伸出的一条重要分支,细粒度图像识别与传统图像识别不同。细粒度图像识别是对同一元类别下的各种子类类别的划分,例如从众多种类的猫中识别出子类别。细粒度图像识别可以分为基于强监督的细粒度图像识别和基于弱监督的细粒度图像识别,前者在模型训练时使用标注点和标注框辅助学习,后者只使用图像标签进行学习。基于弱监督学习的细粒度图像识别主要有基于区域-定位子网络、基于高阶特征编码和基于额外信息辅助识别三种方法。
目前的细粒度图像识别方法主要还是基于区域-定位子网络的方法,这一方法主要是通过注意力机制来定位具有判别性的区域,然后再从这些区域中学习特征。这一方法虽然取得了不错的成效,但还存在着以下不足:现有方法忽略了低层次信息的作用,而且随着网络层数的增加,会导致小的判别性区域中的低层次信息丢失;此外,这些方法只是通过空间注意力和通道注意力找出了关键区域,而忽略了它们之间联系。
发明内容
针对现有技术存在的不足,本发明提供了一种基于注意力的细粒度图像识别方法,所述方法包括以下步骤:
S1构建一个细粒度图像识别网络模型:具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头自注意力模块以及分类器;
S2使用预训练参数优化初始网络;
S3划分数据集并对样本图像进行预处理;
S4将样本图像输入特征提取网络,得到特征图及注意力热力图;
S5同时将提取到的特征图及热力图输入多尺度特征模块,得到多尺度特征图;
S6将多尺度特征图输入上下文注意力感知模块中,使模型学习显著区域的多尺度上下文信息;
S7将多尺度上下文信息输入多头自注意力模块中,使模型学习各尺度特征的长期依赖关系;
S8依据损失函数对网络模型进行训练,重复上述S4~S7步骤直至损失函数收敛。
最终将要识别的细粒度图像输入训练好的模型中进行分类识别。
所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。
进一步的,所述的骨干网络包括:
在每一个Stage中,添加一个空间深度卷积模块替换原本的下采样部分,增强模型对于判别关键区域的识别能力。对于大小为S×S×C1的特征映射X,对该映射进行分割得到子映射,公式如下所示:
fs-1,s-1=X[s-1:S:s,s-1:S:s]
式中f为子特征映射,s为比例因子。在通道维度连接子特征映射,从而将特征映射X转换为一个新的中间特征映射
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310678774.9/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序