[发明专利]一种标记与语义自编码融合的零样本图像分类方法在审
申请号: | 202010501150.6 | 申请日: | 2020-06-04 |
公开(公告)号: | CN111914872A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 蔺广逢;范引娣;缪亚林;陈万军;张二虎 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 韩玙 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 标记 语义 编码 融合 样本 图像 分类 方法 | ||
本发明公开的一种标记与语义自编码融合的零样本图像分类方法,具体按照以下步骤实施:图像到语义的自编码映射求解,获得图像到语义的映射矩阵;图像到标记的自编码映射求解,获得图像到标记的映射矩阵;根据图像到语义的映射矩阵、图像到标记的映射矩阵求解图像标记融合系数;根据图像标记融合系数对零样本图像标记估计,根据估计结果进行分类标记。不仅考虑语义的自编码映射,而且考虑标记的自编码映射。将各个信息域(语义和标记)的映射变换进行标记融合,进一步优化以上多重映射关系,能够更加准确的进行零样本图像分类和识别。
技术领域
本发明属于零样本图像分类技术领域,具体涉及一种标记与语义自编码融合的零样本图像分类方法。
背景技术
深度学习在传统的训练测试模式下对图像目标识别取得了突破性进展。在某些限定条件下,依靠对大规模的标记数据的学习,一定程度已经超越人的判别能力。在实际情形中,由于物种本身稀少或标注样本费时费力,使得获取大量的标记样本的成本和代价较大。甚至很多时候没有任何关于待识别种类的图像样本,这就是零样图像识别问题。
在零样本分类问题中,已知的信息:可见类别的图像样本;所有类别(可见和未可见类别)的语义信息。不可知的信息:未可见类别和其图像样本。本发明有别于传统方法仅考虑不同信息域的单个映射,而是通过图像和语义映射关系、图像和类别映射关系与各自结构的融合,对未可见类图像样本进行分类。
为了建模图像、语义和标记的动态交互关系,当前方法思路是利用线性或非线性将视觉映射到语义、或将语义映射到视觉、或视觉语义映射到共同空间中,以此建立相关性,获得为可见类别的识别。但是视觉、语义和标记的分布结构和描述方式造成不同域信息的偏移,而现有方法未能考虑对视觉、语义和标记的多重映射融合识别未可见类图像样本。
发明内容
本发明的目的是提供一种标记与语义自编码融合的零样本图像分类方法,考虑标记的自编码映射,将各个信息域的映射变换进行标记融合,进一步优化多重映射关系,提高零样本图像分类的准确性。
本发明所采用的技术方案是,一种标记与语义自编码融合的零样本图像分类方法,具体按照以下步骤实施:
步骤1、图像到语义的自编码映射求解,获得图像到语义的映射矩阵;
步骤2、图像到标记的自编码映射求解,获得图像到标记的映射矩阵;
步骤3、根据图像到语义的映射矩阵、图像到标记的映射矩阵求解图像标记融合系数;
步骤4、根据图像标记融合系数对零样本图像标记估计,根据估计结果进行分类标记。
本发明的特点还在于:
步骤1具体过程为:
步骤1.1、取n个图像样本,对n个图像样本提取可见类别的图像特征矩阵和可见类别的语义嵌入特征矩阵
步骤1.2、根据单层的线性自编码器原理可得:
其中,d1为图像特征维度,d2为语义嵌入特征维度,λ1为折中参数取为1,为图像到语义的映射矩阵;
步骤1.3、根据式(1)进而可得:
BA1+A1C=D (2)
其中,B=SST,C=λ1XXT,D=(1+λ1)SXT,通过matlab中的函数sylvester优化求解图像到语义的映射矩阵A1。
步骤2具体过程为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010501150.6/2.html,转载请声明来源钻瓜专利网。