[发明专利]一种基于多部分注意力机制的零样本图像分类识别方法有效
申请号: | 201810673456.2 | 申请日: | 2018-06-26 |
公开(公告)号: | CN110647897B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 武继刚;魏杰;孟敏;王勇 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/77;G06V10/82 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 部分 注意力 机制 样本 图像 分类 识别 方法 | ||
1.一种基于多部分注意力机制的零样本图像分类识别方法,其特征在于,包括以下步骤:
S1.获取图像,训练多部分卷积探测器;具体包括以下步骤:
S101.通过选择性搜索算法从所述图像中得到候选框RoI;
S102.通过卷积网络从候选框RoI中得到图像特征,在卷积层conv5得到特征分布feature map;
S103.将所述步骤S101的候选框RoI映射至所述步骤S102得到的feature map并裁剪出对应的patch,使用Ro1 pooling layer将所述patch调整至固定尺寸;
S104.将patch通过两个全连接层得到特征,将特征分别通过新的全连接层进行处理,连接上各自对应的损失函数;
S2.训练语义特征提取器;具体过程如下:
使用大规模语料库作为语义的输入,通过神经网络算法提取出所有训练类和测试类的类别词向量;
S3.获取训练集的图片,通过训练注意力探测器进行处理;具体过程如下:
将训练集的图片代入所述步骤S1中的多部分卷积探测器内,得到1张图片的多个探测部位的卷积特征,其函数如下式所示:
x1,x2,x3…xp=g(I)
其中,xp为第p部分的卷积特征;
将所述步骤S2的语义特征映射到和局部区域特征xp同样的维度,如下式所示,作为语义特征的隐藏层表示:
其中,S为语义隐藏层表示,为ReLU激活函数;
将局部区域特征xp和语义做内积,得到对应区域加权的权值,如下式所示:
其中,a为对应于局部区域特征x的权值,每有一个局部区域x就有一个权值a;
为了便于对权值计算,将权值进行归一化,如下所示:
将最终归一化后的权值加权到对应的图像特征,得到最终的局部区域特征如下所示:
S4.进行损失计算;
S5.重复进行所述步骤S3和S4的计算,当算法损失低于预设数值时,进行测试,选取最小距离的作为类别值。
2.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S4的具体过程如下:
将语义通过两层全连接层映射到隐藏空间,如下所示:
ψ(zi)=f(W2f(W1zi))
将映射后的语义矩阵与所述步骤S3得到的局部特征进行矩阵相乘,然后与其对应的真实类别值进行欧氏距离度量差值,如下所示:
3.根据权利要求2所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S5的具体过程如下:
对所述步骤S3和S4进行多次迭代计算,当算法的损失低于预设数值后,进行测试,所述测试重复步骤S3和S4的过程,选取最小距离c*的作为类别值,如下所示:
4.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述步骤S104中的新的全连接层包括分类和回归,其中,分类所对应的是softmax函数,回归所对应的是smooth_L1_loss函数。
5.根据权利要求1所述的基于多部分注意力机制的零样本图像分类识别方法,其特征在于,所述语料库为Wikipedia,神经网络算法为Word2vector。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810673456.2/1.html,转载请声明来源钻瓜专利网。