[发明专利]基于多层语义监督式注意力模型的细粒度零样本分类方法在审
申请号: | 201811115665.1 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109447115A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 冀中;于雪洁 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 细粒度 语义 局部视觉 视觉特征 语义特征 多层 注意力模型 图像 监督 样本分类 权重 卷积神经网络 分类结果 输出图像 损失函数 特征结合 网络输出 文本描述 对齐 分类 映射 赋予 嵌入 注意力 全局 | ||
一种基于多层语义监督式注意力模型的细粒度零样本分类方法,利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征,利用类别的文本描述信息作为类别语义特征对细粒度图像的局部视觉特征的分类进行监督,为细粒度图像的局部视觉特征逐步赋予权重;用类别语义特征引导映射到隐空间局部视觉特征,得到多层语义监督注意力模型的损失函数;将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合,作为图像的新的视觉特征;将类别语义特征嵌入到新的视觉特征空间,将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐,利用softmax函数进行分类。本发明可输入提取好的视觉特征和类别语义特征,输出图像的分类结果。
技术领域
本发明涉及一种零样本分类方法。特别是涉及一种基于多层语义监督式注意力模型的细粒度零样本分类方法。
背景技术
近年来深度学习的发展极大程度上促进了计算机视觉识别任务的巨大成功,但当前大部分分类模型都是基于监督学习的模型,不仅需要大量带有标注的数据,而且需要许多次迭代来训练模型参数。当出现新类别或没有标注数据的稀有类别时,这些模型不得不重新训练,这严重限制了传统分类模型的可扩展性。
人类具有即使没有见过某类视觉样本,也能够借助辅助信息推断出新类别的能力。例如,一个人只见过马而没有见过斑马,当他得到描述信息,即斑马与马外表相似,只是身上有黑白相间的条纹,那么此人就极有可能正确识别出斑马这一新类别。零样本学习(Zero-Shot Learning,ZSL)正是受人类这一能力启发,致力于解决当带标签的训练数据不足以涵盖所有目标类别,仅给出对于未知类别的一些描述时,如何进行分类的问题。
零样本学习主要是寻找一个嵌入空间,将视觉特征与类别语义特征进行对齐,进而实现可见类别与未见类别的信息转移。随着深度学习的发展,视觉特征大多采用深度神经网络提取的图像表征,如利用深度卷积神经网络、深度残差网络提取的特征等;语义特征主要包括属性特征,词向量以及文本描述等。目前大多数零样本分类方法利用深度神经网络提取整张图像的全局特征作为视觉特征,这种类型的方法在粗粒度图像分类任务上取得了良好的性能。但对于细粒度图像,图像的局部特征往往包含更丰富的判别信息,因此基于图像局部特征的方法在细粒度图像分类任务中逐渐受到重视。
近年来有学者提出注意力模型,注意力模型的目的在于模拟人脑的视觉注意力机制,人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,同时抑制其他无用信息。注意力模型在计算机视觉、机器翻译等领域取得了良好的效果。在细粒度图像分类任务中,有学者利用注意力模型为图像不同区域的局部特征分配不同的注意力权重,以获得更具有判别能力的局部特征,进行后续分类工作。
发明内容
本发明所要解决的技术问题是,提供一种以语义信息作为监督,利用多层注意力模型实现细粒度零样本分类的基于多层语义监督式注意力模型的细粒度零样本分类方法。
本发明所采用的技术方案是:一种基于多层语义监督式注意力模型的细粒度零样本分类方法,首先,利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征,利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督,为细粒度图像的局部视觉特征逐步赋予权重,得到语义监督注意力模型,其中,与语义信息相关性越高的局部视觉特征,对应的权重就越大;用类别语义特征引导映射到隐空间局部视觉特征,得到多层语义监督注意力模型的损失函数;将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合,作为图像的新的视觉特征;最后将类别语义特征嵌入到新的视觉特征空间,将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐,利用softmax函数进行分类,得到图像分类。
具体包括如下步骤:
1)获取来自细粒度图像的n个可见类别的N张图像的局部视觉特征VI,类别语义特征向量s以及真实标签矩阵Y;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811115665.1/2.html,转载请声明来源钻瓜专利网。