[发明专利]基于多层语义监督式注意力模型的细粒度零样本分类方法在审
申请号: | 201811115665.1 | 申请日: | 2018-09-25 |
公开(公告)号: | CN109447115A | 公开(公告)日: | 2019-03-08 |
发明(设计)人: | 冀中;于雪洁 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 细粒度 语义 局部视觉 视觉特征 语义特征 多层 注意力模型 图像 监督 样本分类 权重 卷积神经网络 分类结果 输出图像 损失函数 特征结合 网络输出 文本描述 对齐 分类 映射 赋予 嵌入 注意力 全局 | ||
1.一种基于多层语义监督式注意力模型的细粒度零样本分类方法,其特征在于,首先,利用卷积神经网络提取在细粒度图像中所选定部位的局部视觉特征,利用类别的文本描述信息作为类别语义特征对所述细粒度图像的局部视觉特征的分类进行监督,为细粒度图像的局部视觉特征逐步赋予权重,得到语义监督注意力模型,其中,与语义信息相关性越高的局部视觉特征,对应的权重就越大;用类别语义特征引导映射到隐空间局部视觉特征,得到多层语义监督注意力模型的损失函数;将细粒度图像的全局视觉特征与经过多层语义监督注意力模型赋予权重后的局部视觉特征结合,作为图像的新的视觉特征;最后将类别语义特征嵌入到新的视觉特征空间,将多层语义监督注意力网络输出的视觉特征与语义特征进行对齐,利用softmax函数进行分类,得到图像分类。
2.根据权利要求1所述的基于多层语义监督式注意力模型的细粒度零样本分类方法,其特征在于,具体包括如下步骤:
1)获取来自细粒度图像的n个可见类别的N张图像的局部视觉特征VI,类别语义特征向量s以及真实标签矩阵Y;
2)利用公式f(VI)=h(WI,AVI)将局部视觉特征VI映射到隐空间;
式中:代表图像的局部视觉特征,其中p为局部视觉特征的维度,m为局部视觉特征的个数,vi为对应的第i个区域的局部视觉特征向量;h为非线性函数;WI,A∈Rd×p为从局部视觉特征空间到隐空间的映射矩阵,d为隐空间的维度;
3)将局部视觉特征VI压缩为视觉特征向量vG,利用公式g(vG)=h(WG,Ah(WG,SvG))将视觉特征向量vG映射到隐空间;
式中:WG,A∈Rd×q为语义空间到隐空间的映射矩阵;WG,S∈Rq×p为从视觉特征空间到语义空间的映射矩阵,q为语义空间的维度;
4)利用公式将f(VI)和g(vG)进行特征融合,得到融合后的特征向量hA;
5)利用公式pI=softmax(WphA+bp)计算出图像每个局部区域的注意力权重
式中:Wp∈Rd为softmax函数的权重向量;bp为常数偏置项;pi为每个局部视觉特征对应的注意力权重;
6)利用公式ui=vi+pivi计算出单层语义监督注意力网络输出的视觉特征向量ui,进而得到m个视觉区域的局部特征的集合以及单层语义监督注意力网络输出的压缩后的视觉特征向量uG;
7)将局部特征的集合UI和压缩后的视觉特征向量uG分别代替图像的局部视觉特征VI和视觉特征向量vG,重复步骤2)~步骤6)得到多层语义监督注意力网络输出的视觉特征向量ui″;
8)为实现以语义信息为监督,引导注意力模型对细粒度图像的局部视觉特征进行选择,将语义信息嵌入到两层注意力网络中,分别得到损失函数Loss1和Loss2:
Loss1=||h(WG,SvG)-s||2
Loss2=||h(WG,SuG)-s||2;
9)将每张图像m个区域的多层语义监督注意力网络输出的视觉特征向量ui″依次串联起来得到图像的全局视觉特征向量uG′,进而得到N张可见类别图像经过多层语义监督注意力网络后输出的全局视觉特征向量的集合UG={uG′};
10)利用公式vs=h(WEs+bE)将类别语义特征向量s嵌入到视觉特征空间得到vs,进而得到n个可见类别的语义特征向量嵌入到视觉特征空间的集合Vs={vs};
式中:WE∈Rl×q为嵌入矩阵,bE∈Rl为嵌入偏置,其中l=m×p,为全局特征向量的长度;
11)使视觉特征和语义特征在视觉特征空间进行对齐,得到损失函数Loss3:
Loss3=||vs-uG′||2
12)利用公式Pc=softmax(UGVsT)计算每张可见类别图像属于每个可见类别的预测概率Pc;
13)利用公式得到分类损失函数Lossc;
14)整个网络的损失函数为:
min Loss=Loss1+Loss2+Loss3+Lossc
在训练过程中通过多次迭代,使网络的损失函数不断下降,最终达到收敛,训练完成。
15)在测试阶段,输入来自t个未见类别的测试图像的局部视觉特征VU,未见类别的测试图像的视觉特征向量vT,得到多层语义监督注意力网络输出的视觉特征向量ut;将未见类别的类别语义特征ST利用视觉语义对齐网络嵌入到视觉特征空间得到语义嵌入特征VT;根据下式计算多层语义监督注意力网络输出的视觉特征向量ut与语义嵌入特征VT的距离D,距离最小的类别即为测试图像的预测类别:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811115665.1/1.html,转载请声明来源钻瓜专利网。