[发明专利]基于多层语义监督式注意力模型的细粒度零样本分类方法在审

申请号：	201811115665.1	申请日：	2018-09-25
公开（公告）号：	CN109447115A	公开（公告）日：	2019-03-08
发明（设计）人：	冀中;于雪洁	申请（专利权）人：	天津大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	杜文茹
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	细粒度语义局部视觉视觉特征语义特征多层注意力模型图像监督样本分类权重卷积神经网络分类结果输出图像损失函数特征结合网络输出文本描述对齐分类映射赋予嵌入注意力全局
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

一种基于多层语义监督式注意力模型的细粒度零样本分类方法，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类。本发明可输入提取好的视觉特征和类别语义特征，输出图像的分类结果。

技术领域

本发明涉及一种零样本分类方法。特别是涉及一种基于多层语义监督式注意力模型的细粒度零样本分类方法。

背景技术

近年来深度学习的发展极大程度上促进了计算机视觉识别任务的巨大成功，但当前大部分分类模型都是基于监督学习的模型，不仅需要大量带有标注的数据，而且需要许多次迭代来训练模型参数。当出现新类别或没有标注数据的稀有类别时，这些模型不得不重新训练，这严重限制了传统分类模型的可扩展性。

人类具有即使没有见过某类视觉样本，也能够借助辅助信息推断出新类别的能力。例如，一个人只见过马而没有见过斑马，当他得到描述信息，即斑马与马外表相似，只是身上有黑白相间的条纹，那么此人就极有可能正确识别出斑马这一新类别。零样本学习(Zero-Shot Learning,ZSL)正是受人类这一能力启发，致力于解决当带标签的训练数据不足以涵盖所有目标类别，仅给出对于未知类别的一些描述时，如何进行分类的问题。

零样本学习主要是寻找一个嵌入空间，将视觉特征与类别语义特征进行对齐，进而实现可见类别与未见类别的信息转移。随着深度学习的发展，视觉特征大多采用深度神经网络提取的图像表征，如利用深度卷积神经网络、深度残差网络提取的特征等；语义特征主要包括属性特征，词向量以及文本描述等。目前大多数零样本分类方法利用深度神经网络提取整张图像的全局特征作为视觉特征，这种类型的方法在粗粒度图像分类任务上取得了良好的性能。但对于细粒度图像，图像的局部特征往往包含更丰富的判别信息，因此基于图像局部特征的方法在细粒度图像分类任务中逐渐受到重视。

近年来有学者提出注意力模型，注意力模型的目的在于模拟人脑的视觉注意力机制，人类视觉通过快速扫描全局图像，获得需要重点关注的目标区域，也就是注意力焦点，而后对这一区域投入更多注意力资源，以获取更多所需要关注目标的细节信息，同时抑制其他无用信息。注意力模型在计算机视觉、机器翻译等领域取得了良好的效果。在细粒度图像分类任务中，有学者利用注意力模型为图像不同区域的局部特征分配不同的注意力权重，以获得更具有判别能力的局部特征，进行后续分类工作。

发明内容

本发明所要解决的技术问题是，提供一种以语义信息作为监督，利用多层注意力模型实现细粒度零样本分类的基于多层语义监督式注意力模型的细粒度零样本分类方法。

本发明所采用的技术方案是：一种基于多层语义监督式注意力模型的细粒度零样本分类方法，首先，利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征，利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督，为细粒度图像的局部视觉特征逐步赋予权重，得到语义监督注意力模型，其中，与语义信息相关性越高的局部视觉特征，对应的权重就越大；用类别语义特征引导映射到隐空间局部视觉特征，得到多层语义监督注意力模型的损失函数；将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合，作为图像的新的视觉特征；最后将类别语义特征嵌入到新的视觉特征空间，将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐，利用softmax函数进行分类，得到图像分类。

具体包括如下步骤：

1)获取来自细粒度图像的n个可见类别的N张图像的局部视觉特征V_I，类别语义特征向量s以及真实标签矩阵Y；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811115665.1/2.html，转载请声明来源钻瓜专利网。

上一篇：场所之间关联度的评估方法和评估系统
下一篇：一种基于低秩约束图谱学习的无监督特征选择算法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于多层语义监督式注意力模型的细粒度零样本分类方法在审

专利文献下载