[发明专利]一种基于类激活映射机制的多标签图像分类方法和系统有效
申请号: | 202110625124.9 | 申请日: | 2021-06-04 |
公开(公告)号: | CN113449775B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 汪洋涛;范立生;彭伟龙;谭伟强 | 申请(专利权)人: | 广州大学 |
主分类号: | G06F18/2413 | 分类号: | G06F18/2413;G06F18/214;G06F18/25;G06N3/0464 |
代理公司: | 广州嘉权专利商标事务所有限公司 44205 | 代理人: | 黎扬鹏 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 激活 映射 机制 标签 图像 分类 方法 系统 | ||
1.一种基于类激活映射机制的多标签图像分类方法,其特征在于,包括:
获取待分类图像,并将所述待分类图像转换为多维张量;
将所述多维张量输入分类模型,得到待分类图像的分类结果;
其中,所述分类模型通过以下步骤训练得到:
获取训练集和测试集,并将所述训练集中的图像翻转;
将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量;
获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵;
对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签;
通过类激活映射机制将所述第一特征图和所述共现关系词向量进行融合,以及通过类激活映射机制将所述第二特征图和所述共现关系词向量进行融合,得到所述原图的第一注意力热图和所述翻转后的图像的第二注意力热图;
根据所述预测标签构建多标签分类损失函数,以及根据所述第一注意力热图和所述第二注意力热图构建注意力一致性损失函数;
根据所述多标签分类损失函数和所述注意力一致性损失函数,构建总损失函数;
根据所述总损失函数对所述分类模型进行迭代训练,得到训练好的分类模型,并根据该分类模型确定所述原图的最终的预测标签;
所述将原图和所述翻转后的图像输入至目标网络,得到原图的第一特征图和第一特征向量,以及得到翻转后的图像的第二特征图和第二特征向量,包括:
将所述原图和所述翻转后的图像输入ResNet-101网络;
从所述ResNet-101网络的输出层提取每张原图的第一特征图和第一特征向量;
从所述ResNet-101网络的输出层提取每张所述翻转后的图像的第二特征图和第二特征向量;
所述获取所述训练集中所有图像的标签,确定各个标签的标签词向量,根据所述标签词向量的共现关系词向量矩阵,包括:
获取所述训练集中所有图像的标签,将每个标签输入GloVe模型中,生成每个标签对应的标签词向量;
将所述标签词向量构建标签词向量矩阵;
统计每类标签在训练集中出现的次数,根据每类标签在训练集中出现的次数计算任意两类标签之间的条件概率;
根据所述条件概率生成关系矩阵;
将所述标签词向量矩阵和所述关系矩阵输入GCN网络,得到共现关系词向量矩阵。
2.根据权利要求1所述的基于类激活映射机制的多标签图像分类方法,其特征在于,所述第一特征图的表达式为:
F=Fcnn(x,θcnn)
所述第一特征向量的表达式为:
f=Fgmp(F)
所述第二特征图的表达式为:
F′=Fcnn(x′,θcnn)
所述第二特征向量的表达式为:
f′=Fgmp(F′)
其中,F代表第一特征图;Fcnn()代表ResNet-101网络;x代表原图;θcnn代表ResNet-101网络的参数;f代表第一特征向量;Fgmp()代表全局最大池化操作;F′代表第二特征图;x′代表所述翻转后的图像;f′代表第二特征向量。
3.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到预测标签,包括:
使用向量的点积操作对所述第一特征向量和所述共现关系词向量矩阵进行融合,得到所述原图的预测标签。
4.根据权利要求1所述的一种基于类激活映射机制的多标签图像分类方法,其特征在于,所述方法还包括:
通过所述测试集对所述训练好的分类模型进行验证,以对所述分类模型进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州大学,未经广州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110625124.9/1.html,转载请声明来源钻瓜专利网。