[发明专利]一种训练场景图像分类模型的方法及场景图像分类方法在审
申请号: | 202210758373.X | 申请日: | 2022-06-29 |
公开(公告)号: | CN115049913A | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 蒋树强;陈恭巍;宋新航;王博瀚 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | G06V20/00 | 分类号: | G06V20/00;G06V10/26;G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 北京泛华伟业知识产权代理有限公司 11280 | 代理人: | 王勇 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 训练 场景 图像 分类 模型 方法 | ||
本发明提供一种训练场景图像分类模型的方法,所述模型包括卷积神经网络、类别激活图模块,所述方法包括:S1、获取多个原始场景图像并组成原始场景图像数据集,其中,每个原始场景图像对应有场景分类标签;S2、对每个原始场景图像进行掩盖处理来获得其对应的修改图像,并将原始场景图像的场景分类标签作为其对应修改图像的场景分类标签,将原始场景图像与其对应修改图像组成图像对,所有的图像对组成训练集;S3、采用训练集将模型训练至收敛。本发明使得场景图像分类模型去探索了更多的大聚焦区域,提高了场景分类效果。
技术领域
本发明涉及计算机视觉领域,具体来说,涉及计算机视觉领域中的场景图像分类领域,更具体地说,涉及一种训练场景图像分类模型的方法和场景图像分类方法。
背景技术
图像分类在计算机视觉领域中受到了很多研究者关注,其属于计算机视觉的一项基础任务,同时也被当作通用任务去帮助促进卷积神经网络技术的发展。图像分类中的场景图像分类作为一项很具有价值的图像分类子任务,具有其独有的特性,值得进一步地研究。对比图像分类中的物体图像分类,图像分类中的场景图像分类更加复杂且具有很多不同之处。其中一个主要的不同之处在于,场景图像分类是基于分布在整张图像上的场景特性进行分类,而物体图像分类是基于被限定在一个明确的形状中的物体特性进行分类。这种分类特性不同的现象引出了一个场景图像分类的核心点是需要“看见”全面的具有信息量的图像区域。
现有大部分的场景图像分类方法均是通过提取特定的或者通用的区域,然后利用统计模型或者是关系建模方法来聚合这些区域来表示,以求实现更好的分类性能。常见的场景图像分类方案有如文献1-6所描述的技术方案,其中,文献[1,4,5]中的技术方案是直接利用先验知识,将图像划分成若干个同样大小的区域块,然后通过预训练网络提取区域块特征进行分类:与文献[1]中的技术方案相比,文献[4]采用了马尔可夫随机场来建模区域块之间的语义关系进而实现信息传递,最后进行融合得到全局的图像特征;文献[5]中的不同之处是通过传统的特征聚合方法费舍尔向量(Fisher Vector)或者引入混合因子分析的改进版费舍尔向量来实现区域块特征的融合。在考虑到网络中的固定区域块可能带来的语义割裂,模糊或者多义性等问题,现有的一些方案考虑通过发现特定的语义区域来提取区域信息,例如,文献[2]是利用多步训练的方法,先通过物体检测任务中的区域候选方法来获得一些初步区域,然后通过二分类和聚类的方法来过滤这些初步区域进而获得更具有区分性的语义区域,最后利用费舍尔向量方法来聚合这些区域用于后续的处理;文献[3,6]都考虑卷积神经网络的中层特征图,通过简单的聚类以及阈值化方法就可以得到一些具有区分性的区域用于后续的区域聚合。
但是,以上方法都面临的一个主要挑战是,区域的提取和聚合过程复杂,存在部分独立于主体的卷积神经网络,这样会导致以下问题:1)由于提取和表示区域的过程分开,会造成一定程度的不兼容问题;2)来自于额外的区域提取和聚合过程,带来了不可避免的计算开销。要解决这些问题,必须进一步研究卷积神经网络,并使其更好的适用于场景分类的需求,进而实现更加高效的,性能更好的场景分类方法。
参考文献列表:
文献[1]Yunchao Gong,Liwei Wang,Ruiqi Guo,and Svetlana Lazebnik.Multi-scale Orderless Pooling of Deep Convolutional Activation Features.In ECCV,pages 1–17,2014.
文献[2]Ruobing Wu,Baoyuan Wang,and Wenping Wang.HarvestingDiscriminative Meta Objects with Deep CNN Features for SceneClassification.In ICCV,pages 1287–1295,2015.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210758373.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:供电电路、耳机、耳机盒
- 下一篇:一种人才资历数据的分类方法及装置
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序