[发明专利]一种基于元学习的弱监督图像多标签分类方法有效
申请号: | 202110162956.1 | 申请日: | 2021-02-05 |
公开(公告)号: | CN113033603B | 公开(公告)日: | 2022-11-15 |
发明(设计)人: | 陈刚;陈珂;董合德;寿黎但;骆歆远 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 邱启旺 |
地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 学习 监督 图像 标签 分类 方法 | ||
本发明公开了一种基于元学习的弱监督图像多标签分类方法,属于图像处理技术领域。该方法为解决因标签缺失无法有效建模标签依赖关系问题,提出一个基于标签信息增强的图像多标签分类模型,采用编码‑解码架构的神经网络,以序列标注的形式,依次判断标签序列中的标签是否相关,获得图像的相关标签。应对弱监督环境存在的监督信息不足导致模型过拟合现象,本发明提出了基于元学习的教师‑学生网络架构训练方法,进一步提高了图像标注的准确率。
技术领域
本发明属于图像处理技术领域,涉及一种图像多标签分类方法,特别是涉及一种基于元学习的弱监督图像多标签分类方法。
背景技术
图像是对现实场景的一种记录,其往往包含着丰富且复杂的语义概念。如何快速精准识别出图像所包含的多个不同语义概念,这便是图像多标签分类任务的目标。另外,图像多标签技术广泛应用于目标检测、机器人辅助技术、自动驾驶等领域。例如给定图1作为输入,我们需要识别出图像中包含“飞机”、“天空”这两个语义概念。
目前,深度学习方法在图像多标签分类任务取得了显著进展。但是,深度学习网络需要大量的完全标注的监督数据,由于图像多标签分类任务可能存在图像蕴含复杂语义概念,不易区分,以及预定义标签集合过大,标签之间概念存在重叠等关系等问题,导致获取完全标注的监督数据是耗时且成本昂贵的。为解决这个问题,便提出了弱监督图像多标签分类任务。弱监督图像多标签分类任务是指唉弱监督环境中构建性能良好的图像多表预测模型。弱监督环境是指数据集提供部分标签,甚至部分无标签数据集,即其训练集由有标签数据、部分标签缺失数据、无标签数据组成。现有针对弱监督图像多标签分类的主流方法依赖先验知识构建图网络,该图网络需包含所有训练集的数据,在训练数据规模变大图网络的构建性能问题验证,导致该方案的可拓展性较差。因此,如何在有限的监督信息下提高模型的泛化能力和通用性,以及更好地建模标签依赖关系是弱监督图像多标签分类任务的主要挑战。
发明内容
为克服现有弱监督图像多标签分类方法在大规模数据集性能不足的问题,本发明提供了一种基于元学习的弱监督图像多标签分类方法。首先,本发明提出了一种适用于弱监督场景的基于标签信息增强的深度学习模型,该模型根据预先定义好的标签序列,依次按顺序对标签序列中的标签进行预测,从而得到图像相关标签。传统的标签序列仅包含图像相关序列,使得在弱监督场景,缺失标签被视为无关标签,误导模型。因此在本发明所设计的标签序列引入无关标签,不仅能够显式建模标签之间的共现和互斥关系,而且避免了相关标签缺失导致标签序列信息不足的问题。然后,对于弱监督场景中训练数据存在标签不完全的情况导致模型性能低下的问题,本发明提出一个基于元学习的教师-网络训练框架,通过指数移动平均算法构建一个鲁棒性较好的教师网络,在训练过程中为无标签数据提供额外的监督信息,另外,遵循模型无关的深度元学习范式,采用标签掩盖机制,构建元任务,在有限监督信息下,让模型学习更多有差异的任务,提高模型泛化性。
本发明所采用的技术方案如下:一种基于元学习的弱监督图像多标签分类方法,所述方法在弱监督图像多标签分类系统上实现,所述弱监督图像多标签分类系统包括一个基于标签信息增强的图像多标签分类网络和一个基于元学习的教师-学生网络训练架构;所述的多标签分类网络包括一个编码层和一个解码层;所述编码器接收图像作为输入,采用ResNet-152预训练模型得到图像的低维特征矩阵和高维特征向量;所述解码器是LSTM序列解码结构,用于生成标签标注序列;所述基于元学习的教师-学生网络架构包括一个教师模型和一个学生模型。所述弱监督图像多标签分类方法包括以下步骤:
(1)将图像输入到编码器,选择该编码器网络中最后一层和倒数第三层的输出,作为图像的低维特征矩阵和高维特征向量。
(2)将编码后的高维特征向量作为图像的抽象表示,并将该抽象表示作为解码器的初始输入,并预测预定义的标签序列中第一个标签是否相关。
(3)根据标签序列中前一个标签预测信息作为解码器的当前输入,来预测标签序列中当前标签是否相关。
(4)重复步骤(3),直到标签序列中的标签均已被预测。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110162956.1/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序