[发明专利]一种用于零样本分类的多模态典型相关分析的方法有效
申请号: | 201610027658.0 | 申请日: | 2016-01-15 |
公开(公告)号: | CN105701514B | 公开(公告)日: | 2019-05-21 |
发明(设计)人: | 冀中;谢于中 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 样本 分类 多模态 典型 相关 分析 方法 | ||
一种用于零样本分类的多模态典型相关分析的方法,包括:使用训练数据的视觉特征以及相应类别的语义特征求解得到映射矩阵;使用映射矩阵,将测试数据的视觉特征和未见过的类别的语义特征映射至公共空间;对测试数据进行分类。本发明能够寻求图像的视觉特征与多个模态的语义特征之间的公共空间,在零样本图像分类中可以取得更高的准确率,因此是一种有效的零样本图像分类方法。本发明的方法简单易行,效果优良。除了零样本图像分类问题,同时也能适应其他的多模态分类、检索问题。
技术领域
本发明涉及一种实现零样本图像分类的方法。特别是涉及一种通过多模态典型相关分析,建立图像的视觉空间与图像类别的语义空间之间的联系,从而实现零样本图像分类的用于零样本分类的多模态典型相关分析的方法。
背景技术
对于传统的图像分类系统,要想准确识别出某类图像,必须给出相应的带标签的训练数据。但训练数据的标签往往是难以获得的,零样本图像分类就是解决类别标签缺失问题的一种有效手段,其目的在于模仿人类无需看过实际视觉样例,就能认出新的类别的能力。零样本图像分类系统通过有标签的训练数据,也就是已经见过的类别,在视觉空间和语义空间之间建立映射关系。然后根据这个映射关系,将测试数据的视觉特征与未见过的类别的语义特征相联系,选择语义最接近的类别作为测试数据的标签。
在零样本图像分类中,对于未见过的类别的测试图像和相应的类别名称,需要借助语义空间建立联系。在语义空间中,每一个类别名称都被表示成一个高维向量。早期工作中,这个语义空间通常是基于属性的,于是每个类别名称就能表示成一个属性向量。例如Lampert等人对50类动物图像标注了85个语义属性,比如对象的颜色、形状等,用其作为高级语义描述方式。
近年来,随着自然语言处理技术的发展,基于文本矢量的语义空间逐渐流行。常用的文本矢量提取方法是Mikolov等人提出的Word2Vec,它是一种无监督的方法,可以将语料库中的单词用向量来表示,并且向量之间的相似度可以很好的模拟单词语义上的相似度。
在给定的语义空间中求得已见过的和未见过的类别的语义特征向量后,各类别间的语义相关性就可以由语义特征向量之间的距离求出。然而,图像是由视觉空间中的视觉特征向量表示的,由于语义鸿沟的存在,它不能与语义空间的特征向量直接建立联系。现有的方法大多通过已见过的类别图片的视觉特征和相应标签的语义特征,学习一个从视觉空间映射到语义空间的映射函数。然后,通过这个映射函数,将测试图片的视觉特征映射至语义空间,得到预测的语义特征,再找出离它最近的未见过类别的语义特征,从而确定所属类别。
但是,单种模态的语义特征构成的语义空间往往不能充分的描述数据集的类别结构。
通常的零样本图像分类方法是将图像的视觉特征映射到类别名称的语义特征空间,然后进行分类。但是,类别名称的语义特征构成的原始空间往往不能很好的描绘数据集的类别结构。
发明内容
本发明所要解决的技术问题是,提供一种可以将训练图像的视觉特征和图像类别名称的语义特征映射到一个公共空间的用于零样本分类的多模态典型相关分析的方法。
本发明所采用的技术方案是:一种用于零样本分类的多模态典型相关分析的方法,包括 如下步骤:
1)使用训练数据的视觉特征X1以及相应类别的语义特征X2,…Xc求解下式,得到映射矩阵W:
式中,I是单位矩阵;
2)在验证集中学习得到下式中的权重αi
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610027658.0/2.html,转载请声明来源钻瓜专利网。