[发明专利]一种细粒度图像识别分类模型训练方法、装置及设备有效
申请号: | 202310140142.7 | 申请日: | 2023-02-21 |
公开(公告)号: | CN115830402B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 余鹰;王景辉 | 申请(专利权)人: | 华东交通大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/26 |
代理公司: | 南昌旭瑞知识产权代理事务所(普通合伙) 36150 | 代理人: | 曹远龙 |
地址: | 330000 江西省南*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 细粒度 图像 识别 分类 模型 训练 方法 装置 设备 | ||
本发明提供一种细粒度图像识别分类模型训练方法、装置及设备,方法包括:将细粒度图像输入到预设网络模型当中进行训练,预设网络模型包括多层自注意力层;获取预设数量个目标自注意力层对细粒度图像进行学习得到的分类向量;将每个目标自注意力层的分类向量输入到预设分类器当中,输出每个目标自注意力层的分类标签,分别将每个目标自注意力层的分类标签与预设真实标签进行损失计算;根据每个目标自注意力层的损失值,分别通过反向传播机制更新网络参数。本发明通过引入渐进式训练机制,有利于挖掘不同层次分类向量中的互补信息并用于分类;还提出了多尺度模块,实现全局信息与局部信息的互补交流,提高细粒度图像分类效果。
技术领域
本发明涉及模型训练技术领域,特别涉及一种细粒度图像识别分类模型训练方法、装置及设备。
背景技术
细粒度图像分类旨在识别同一父类别里的子类别。例如,属于同一车类别之下的奔驰、奥迪,属于同一鸟类别之下的蓝松鸦、鹦鹉,属于同一狗类别之下的拉布拉多犬、金毛等。细粒度图像分类技术因其在人脸识别、交通车辆识别、智能零售商品、农业疾病识别研究、濒危动物保护等方面具有许多实际意义而备受关注。
但是,与传统图像分类问题不同,细粒度图像分类用的训练数据集图片往往只有在局部细微区域具有较大判别性意义。现有的细粒度图像分类模型大致分为两类:强监督模型与弱监督模型。强监督模型依赖于精细的图像标注(例如人工标注框、关键点信息等),这些准确且精细的标注信息大多通过不同方面的专家标注获得,另外由于样本数据集大,这一标注工作需要消耗大量时间与精力。此外,标注信息可能受到主观影响并且存在错误。近期一种以弱监督为基础的工作逐渐引起研究人员的关注,此方法无需额外的图像标注,即以图像级标签为监督信号。例如近期由Google提出的VisionTransformer(视觉自注意力模型,简称ViT)在计算机图像领域大放异彩,仅仅单纯的ViT即可在细粒度图像分类达到不错的效果,但是要实现精细化细粒度图像分类依然存在不足。
因此,目前许多研究工作者也在提出各种基于ViT的变种,都具有一定成效。但是现有基于ViT的工作大多是对于卷积神经网络已有的思想进行迁移,缺少了对于ViT结构中独特多头注意力机制的思考。并且最近ViT的工作大部分都在单纯针对图片向量(patchtoken)与多头注意力机制进行研究,而忽略了分类向量(class token)在进行分类时的重要性。现有的ViT以及一些ViT的变种仅仅考虑了最后一层注意力层学习到的有利信息用于分类,而忽略了其他层所学习到的互补信息,这将造成一定的信息丢失,导致模型的细粒度图像分类的精度效果欠缺。
发明内容
基于此,本发明的目的是提供一种细粒度图像识别分类模型训练方法、装置及设备,以解决现有技术当中的至少一个技术问题。
根据本发明实施例的一种细粒度图像识别分类模型训练方法,所述方法包括:
获取模型训练用的细粒度图像,并将所述细粒度图像输入到预设网络模型当中进行训练,所述预设网络模型包括多层自注意力层,所述细粒度图像依次经过每一所述自注意力层,以通过所述自注意力层对所述细粒度图像进行分类向量学习;
获取预设数量个目标自注意力层对所述细粒度图像进行学习得到的分类向量,所述目标自注意力层位于所述多层自注意力层的后端;
将每个所述目标自注意力层的分类向量输入到预设分类器当中,输出每个所述目标自注意力层的分类标签,分别将每个所述目标自注意力层的分类标签与预设真实标签进行损失计算,得到每个所述目标自注意力层的损失值;
根据每个所述目标自注意力层的损失值,分别通过反向传播机制更新网络参数,以训练所述细粒度图像识别分类模型。
另外,根据本发明上述实施例的一种细粒度图像识别分类模型训练方法,还可以具有如下附加的技术特征:
进一步地,还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东交通大学,未经华东交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310140142.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序