[发明专利]一种基于潜层特征生成的广义零样本图像分类方法在审

申请号：	202111102460.1	申请日：	2021-09-20
公开（公告）号：	CN113887589A	公开（公告）日：	2022-01-04
发明（设计）人：	路红;马培荣	申请（专利权）人：	复旦大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	上海正旦专利代理有限公司 31200	代理人：	陆飞;陆尤
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于特征生成广义样本图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于零样本图像分类领域，具体为一种基于潜层特征生成的广义零样本图像分类方法。本发明通过将真实的图像特征和WGAN生成的图像特征映射到M‑VAE的潜层空间来进一步对齐它们的分布，并通过跨模态重构保留判别性语义信息。基本步骤为：首先使用seen类的图像特征和语义嵌入训练一个潜层特征生成模型；然后使用这个训练好的模型将seen类和unseen类的语义嵌入和图像特征转化为潜层特征。最后，使用这些潜层特征进行最终的Softmax分类器的训练和测试。本发明学习了一个有判别力的潜层空间，能以较小的潜层特征尺寸实现较高的精度。

技术领域

本发明属于零样本图像分类领域，具体涉及一种基于潜层特征生成的广义零样本图像分类方法。

背景技术

零样本图像分类的目标是识别不提供任何训练样本的unseen类，它假设所有测试样本仅来自unseen类。然而，在现实场景中，需要识别的目标即可能来自unseen类，也可能来自seen类，而不仅仅是来自于unseen类。与零样本图像分类相比，广义零样本图像分类是一种更符合现实也更具挑战性的设置。在GZSL中，测试样本既可以属于seen类，也可以属于unseen类。本发明重点解决广义零样本图像分类问题。

零样本图像分类技术可用于解决各种缺少训练样本的问题，具有重大研究意义和价值。它是通过seen类和unseen类共享的语义信息（例如：属性、词向量或文本描述）从seen类到unseen类迁移知识来实现的。早期的零样本图像分类方法首先建立一个嵌入模型来学习语义空间与视觉空间之间的跨模态映射，然后在一个共同的嵌入空间中执行最近邻搜索以预测类标签。具体来说，给定一张测试图像样本x，嵌入模型搜索具有最高兼容性得分的类语义嵌入，并返回其类标签，如下：

其中F表示嵌入模型，y表示类标签，c(y)表示类语义嵌入，w表示嵌入模型的参数。

近年来，由于能够利用语义嵌入生成unseen类的合成样本的能力，生成对抗网络和变分自动编码器等深度生成模型已广泛应用于解决零样本图像分类问题。由此而产生的特征生成方法将零样本图像分类看作一个unseen类样本缺失问题，首先使用seen类的图像特征和类特定的语义嵌入来学习一个特征生成模型，然后使用训练好的特征生成模型以类特定的语义嵌入为条件合成任意数量的unseen类特征，最后利用seen类的真实特征和unseen的合成特征来训练最终的广义零样本图像分类器（例如：Softmax分类器）。特征生成方法解决了seen类和unseen类之间的数据不平衡，将广义零样本图像分类转化为一个传统的监督学习任务。目前在零样本图像分类主流数据集上性能排名靠前的算法都基于深度生成模型。

发明内容

本发明的目的在于提供一种基于潜层特征生成的广义零样本图像分类方法，旨在解决GAN生成的样本分布与真实样本分布之间的偏移问题，包括设计一种合成特征样本数量少、维度低，因此训练时间短、效率高的潜层特征生成模型，并通过跨模态重构保留判别性语义信息，实现先进的广义零样本图像分类精度。

本发明提供的基于潜层特征生成的广义零样本图像分类方法，是基于潜层特征生成模型的；该模型由一个WGAN和一个多模态重构变分自动编码器（M-VAE）组成，它通过将真实的图像特征和WGAN生成的图像特征映射到多模态重构变分自动编码器（M-VAE）的潜层空间来进一步对齐它们的分布，并通过跨模态重构保留判别性语义信息。基本步骤为：

首先，使用seen类的图像特征和语义嵌入训练一个潜层特征生成模型；

然后，使用这个训练好的模型将seen类和unseen类的语义嵌入和图像特征转化为潜层特征；

最后，使用这些潜层特征进行最终的Softmax分类器的训练和测试。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111102460.1/2.html，转载请声明来源钻瓜专利网。

上一篇：一种虚拟机管理方法、系统、设备以及介质
下一篇：一种高分子型潜香缓释材料及其在加热卷烟中的应用

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于潜层特征生成的广义零样本图像分类方法在审

专利文献下载