[发明专利]一种基于多层聚焦注意力网络的细粒度图像分类方法有效
申请号: | 202011588241.4 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112686242B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 乔伟晨;黄青松;王波;单文琦;刘利军;黄冕 | 申请(专利权)人: | 昆明理工大学 |
主分类号: | G06V10/22 | 分类号: | G06V10/22;G06V10/82;G06V10/774;G06V10/764;G06N3/0464 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 何娇 |
地址: | 650093 云*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多层 聚焦 注意力 网络 细粒度 图像 分类 方法 | ||
本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法,属于计算机视觉技术领域。本发明包括步骤:首先通过首层聚焦网络能够准确有效聚焦于识别局域并生成定位区域;再根据定位区域对原图像分别进行裁剪和遮挡后输入下一层的聚焦网络进行训练分类,其中单层聚焦网络以Inception‑V3网络为基础,通过卷积注意力特征模块和定位区域选择机制来聚焦有效的定位区域;然后使用双线性注意力最大池化提取各个局部的特征;最后进行分类预测;实验结果表明,本方法的分类准确率高于目前主流方法。
技术领域
本发明涉及一种基于多层聚焦注意力网络的细粒度图像分类方法,属于计算机视觉技术领域。
背景技术
随着深度学习、卷积网络技术的不断发展,深度学习网络在计算机视觉领域得到广泛的应用,如图像检索,场景解析,目标跟踪等。在细粒度图像识别领域,深度卷积网络也得到广泛地研究与应用。由于在细粒度图像识别中,类内差异容易受姿态,视角与位置等因素影响。其次类间具有相似性。最后手工标注位置不稳定且耗费人力。因此细粒度识别任务更具有挑战性。Zhang等人提出强监督细粒度图像分类模型(Part-basedRegionConvolutional Neural Network,R-CNN)借助边界框和部分批注标签进行对象部件定位等操作得到对象与部件的图像块,最后将对象部件等特征级联之后进行分类。强监督细粒度图像分类模型(Part-based R-CNN)分类准确率取得不错的效果,但存在算法速度慢,过于依赖标签,定位检测不稳定等问题。因此Wei等人提出掩膜卷积神经网络模型(Mask-CNN)在训练时仅需要部分批注和图像等级标签。同时借助全卷积网络(FullyConvolutional Networks,FCN)学习部分掩膜来进行对象部件定位等操作得到对象与部件的图像块,最后将对象部件等特征级联之后进行分类。掩膜卷积神经网络模型(Mask-CNN)取得很好的定位效果以及分类准确率,并且大大降低对标记依赖性,但是任避免不了强监督标记分类。Lin等人提出高阶特征编码双线性卷积网络(Bilinear-CNN,B-CNN)和改进的双线性卷积网络,通过对特征图进行外积操作建立了特征图中通道之间的线性相关,并进行端到端的联合优化学习,在细粒度分类任务上取得了优异的性能。但是存在无法捕捉特征图中通道之间的非线性关系,于是Ge等人提出一种核化的双线性卷积网络,通过使用核函数的方式有效地建模特征图中通道之间的非线性关系,改进了高阶特征编码方法,提升特征的表达能力。但是该方法存在外积导致特征的维度增大为原来的平方等缺点。Zheng等人提出多注意力卷积神经网络(Multi-attention Convolutional Neural Network,MA-CNN)模型抛弃手工标记对象部件的方法,采用弱监督学习方法。同时定位多个对象部件,提出信道分组损耗,通过聚类产生多个部分。将这些部分分别与特征进行点乘得到局部精细化的特征分别进行分类,取得很好的分类准确率。但是该方法中对象的部件数量有限(2个或4个),因此会限制分类的准确。先前工作通常采用定位或者分割来解决类内的差异性,但是类间相似性依然影响特征的学习;
面向数据的年代,特征选择这个任务越来越不适合人工来做。模式识别的问题就是用计算的方法根据样本的特征将样本划分到一定的类别中去。模式识别就是通过计算机用数学技术方法来研究模式的自动处理和判读,把环境与客体统称为模式。随着计算机技术的发展,人类有可能研究复杂的信息处理过程,其过程的一个重要形式是生命体对环境及客体的识别。模式识别以图像处理与计算机视觉、语音语言信息处理等为主要研究方向,研究人类模式识别的机理以及有效的计算方法。
计算机要解释一张图片的内容是很难的,因为计算机看到的图片是一个大的数字矩阵,它对图像传递的思想、知识和意义一无所知。为了理解图像的内容,我们必须应用图像分类,这是使用计算机视觉和机器学习算法从图像中抽取意义的任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011588241.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双散热式新能源电池固定箱
- 下一篇:一种产科临床辅助顺产床