[发明专利]一种基于潜层特征生成的广义零样本图像分类方法在审
申请号: | 202111102460.1 | 申请日: | 2021-09-20 |
公开(公告)号: | CN113887589A | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 路红;马培荣 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 上海正旦专利代理有限公司 31200 | 代理人: | 陆飞;陆尤 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 生成 广义 样本 图像 分类 方法 | ||
1.一种基于潜层特征生成的广义零样本图像分类方法,其特征在于,是基于潜层特征生成模型的;该模型由一个WGAN和一个M-VAE组成,它通过将真实的图像特征和WGAN生成的图像特征映射到M-VAE的潜层空间来进一步对齐它们的分布,并通过跨模态重构保留判别性语义信息;其步骤为:
首先,使用seen类的图像特征和语义嵌入训练一个潜层特征生成模型;
然后,使用这个训练好的模型将seen类和unseen类的语义嵌入和图像特征转化为潜层特征;
最后,使用这些潜层特征进行最终的Softmax分类器的训练和测试;
其中,M-VAE是多模态重构变分自动编码器,它以来自一个模态的信息作为编码器的输入;但解码器不重构输入,而是将潜层特征重构为另一个模态的信息;以这种跨模态重构方式,M-VAE的潜层空间包含类别的多个模态的信息;
其中,WGAN包含一个生成器和一个判别器;生成器基于类语义嵌入和随机噪声合成视觉特征、判别器试图将合成视觉特征与从CNN中提取的真实视觉特征区分开来;
所述M-VAE包含一个编码器和一个解码器;编码器将真实视觉特征和合成视觉特征编码为潜层特征,并在潜层空间中对它们执行分布对齐;解码器将潜层特征重构为相应的类语义嵌入向量;编码器通过将真实的和合成的高维视觉特征映射到一个低维的潜层空间来进一步对齐它们的分布,解码器施加的额外的跨模态重构约束使潜层特征保留足够多的语义信息;通过此训练过程,学习了一个有判别力的低维潜层空间,并且可以实现稳定和快速的训练;最后,通过在潜在空间中使用Softmax分类器,实现先进的广义零样本图像分类精度。
2.根据权利要求1所述的基于潜层特征生成的广义零样本学习方法,其特征在于,具体计算步骤如下:
(1)准备广义零样本图像分类数据集;
(2)使用seen类的图像特征和语义嵌入对潜层特征生成模型进行训练;
(3)通过训练好的潜层特征生成模型将seen类的训练图像特征和unseen类的语义嵌入转化为潜层特征;
(4)使用步骤(2)中得到的潜层特征训练一个Softmax分类器;
(5)通过训练好的潜层特征生成模型将seen类和unseen类的测试图像特征样本转化为潜层特征;
(6)使用步骤(5)中得到的潜层特征对步骤(4)中训练好的Softmax分类器进行测试,计算广义零样本图像分类精度。
3.根据权利要求2所述的基于潜层特征生成的广义零样本学习方法,其特征在于,步骤(2)中所述潜层特征生成模型的训练策略,包括:
(1)使用判别器损失和M-VAE损失对判别器, 编码器和解码器进行联合训练;
(2)在生成器训练阶段,同时冻结判别器、编码器和解码器的权重,以生成器损失、分布对齐损失和语义重构损失来规范真实样本与生成器生成的样本,编码器分别编码真实样本与生成器生成的样本得到的潜层特征和解码器解码得到的语义嵌入与类别真实的语义嵌入之间的相似性;
(3)以这种训练策略,使得基于类特定的语义嵌入通过生成器和编码器生成的潜层特征与相应类别的图像特征通过编码器生成的潜层特征更加一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111102460.1/1.html,转载请声明来源钻瓜专利网。