[发明专利]一种基于注意力的细粒度图像识别方法在审
申请号: | 202310678774.9 | 申请日: | 2023-06-08 |
公开(公告)号: | CN116580289A | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 李兰英;林成承 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/40;G06V10/764;G06V10/774;G06V10/80;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 细粒度 图像 识别 方法 | ||
1.一种基于注意力机制的细粒度图像识别方法,其特征在于,所述方法包括步骤:
S1构建一个细粒度图像识别网络模型:具体包含特征提取网络、空间深度卷积模块、多尺度特征提取模块、上下文注意力感知模块、多头注意力模块以及分类器;
S2使用预训练参数优化初始网络;
S3划分数据集并对样本图像进行预处理;
S4将样本图像输入特征提取网络,得到特征图及注意力热力图;
S5将提取到的特征图及热力图输入多尺度特征提取模块,得到多尺度特征图;
S6将多尺度特征图输入上下文注意力感知模块中,使模型学习显著区域的多尺度上下文信息;
S7将多尺度上下文信息输入多头注意力模块中,使模型学习各尺度特征的长期依赖关系;
S8依据损失函数对网络模型进行训练,重复上述S4~S7步骤直至损失函数收敛。
最终将要识别的细粒度图像输入训练好的模型中进行分类识别。
2.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,所述的特征提取网络采用ConvNeXt卷积神经网络作为骨干网络。
3.根据权利要求2所述的基于注意力的细粒度图像识别方法,其特征在于,在每一个Stage中,添加一个空间深度卷积模块替换原本的下采样部分,增强模型对于微小判别关键区域的识别能力。对于大小为S×S×C1的特征映射X,对该映射进行分割得到子映射,公式如下所示:
fs-1,s-1=X[s-1:S:s,s-1:S:s]
式中f为子特征映射,s为比例因子。在通道维度连接子特征映射,从而将特征映射X转换为一个新的中间特征映射
然后采用非步幅卷积进行特征转换,在特征映射X'后增加一个C2卷积层,其中C2s2C1,将转换为从而尽可能保留微小区域的判别信息。
4.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,对于给定的特征图X∈RC×H×W,其中C、H、W分别代表通道数、高度和宽度,所述的多尺度特征提取模块,通过不同大小的矩形区域在特征图X上捕获不同尺度的区域,对于响应区域r(i,j,△x,△y),其中i、j为响应区域中心位置,△x、△y为宽度和高度。通过改变该区域的宽度和高度来得到一组区域即R=r(i,j,m△x,n△y),其中m,n=1,2,3,…;且ii+m△x≤W,jj+m△y≤H,逐级捕获响应区域微妙变化的丰富上下文信息,由此得到一组区域集合R={R}。
5.根据权利要求4所述的基于注意力的细粒度图像识别方法,其特征在于,针对若干个不同大小的区域R=r(i,j,m△x,n△y),使用双线性池化、双线性插值生成固定大小的特征向量表示这些区域,在目标坐标处的变换图像公式如下所示:
式中,R(Lψ(y))表示从原始图像中获取区域坐标为y的特征向量;Lψ(y)表示坐标y的变换,其中Ψ是一个可学习参数;K是核函数,当和Lψ(y)不直接相邻时,
6.根据权利要求1所述的基于注意力的细粒度图像识别方法,其特征在于,使用上下文注意力感知模块捕获多尺度特征间的联系,使模型能够选择性的关注更相关的区域,以生成整体的上下文信息,得到多尺度特征间联系的具体公式如下所示:
式中vr为上下文注意特征向量,表示与当前尺度相关联的其他尺度的特征映射,αr,r'表示当前尺度特征与其他相邻尺度特征间的关联性,公式如下所示:
式中Mα为权重矩阵的非线性组合,bα、bβ表示偏差;表示查询向量,表示键向量,二者的公式如下所示:
式中Mβ和Mβ'表示权重矩阵,表示当前尺度的特征映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310678774.9/1.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序