[发明专利]一种基于视觉特征约束的细粒度图像分类方法在审
申请号: | 202210878434.6 | 申请日: | 2022-07-25 |
公开(公告)号: | CN115410031A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 沈冯立;李福生;赵彦春 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06N20/00 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 郭美 |
地址: | 313000 浙江省湖州市西塞*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 特征 约束 细粒度 图像 分类 方法 | ||
1.一种基于视觉特征约束的细粒度图像分类方法,其特征在于,包括以下步骤:
步骤一:训练数据集的采集;
步骤二:对训练图片进行数据预处理和数据增广;
步骤三:采用CLIP方法中的ViT-B/16模型作为基础模型提取训练图片的视觉特征;
步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些中间特征作为标准对步骤三中的ViT-B/16模型的中间特征进行约束,得到图片特征约束1;
步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;
步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;
步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;
步骤八:将步骤三和步骤七得到的普通视觉特征和掩码图片视觉特征进行组合后得到的图片特征作为训练图片的最终图片视觉特征;将最终图片视觉特征经过多层感知机后得到每一类的置信度,通过交叉熵损失函数进行分类损失的计算;
步骤九:将步骤四、步骤五和步骤八中的图片特征约束1、图片特征约束2和分类损失相加后得到任务的总损失;通过总损失训练步骤三中的ViT-B/16模型;
步骤十:测试阶段,将测试图片复制4份,将四份分别旋转一定的角度,再使用步骤九中训练完成的ViT-B/16模型对这四份测试图片分别进行预测,然后平均四份的输出结果,最终平均得分最高的类别就是测试图片的预测类别。
2.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤一中,采用的数据集是Caltech-UCSD Birds-200-2011鸟类细分类数据集,该数据集包含200类鸟类的图片数据,共11788张图片,并且每张图片都有对应的一段描述性文本数据;取该数据集中的5994张图片作为训练数据集。
3.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤二中,将图片缩放至统一的尺寸224×224的大小,然后利用随机剪裁、随机翻转、随机高斯模糊等数据增广方式提升训练图片的数量。
4.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤三中的ViT-B/16模型的输入为将图片切成16×16大小的块,输出为图片的768维的视觉特征向量,最后经过一个多层感知机得到图的类别得分。
5.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤四中,ViT-B/16模型共有12层,取预训练ViT-B/16模型的最后4、3、2层输出的中间特征作为图片特征约束1的约束特征;图片特征约束1的计算公式如下:
L1=∑‖f1-f2‖2,
其中f1是步骤四中预训练模型提取的中间特征,f2是步骤三中模型的对应的中间特征。
6.根据权利要求1所述的一种基于视觉特征约束的细粒度图像分类方法,其特征在于,所述步骤五中,transformer文本特征编码器提取得到的文本特征维度为768维;利用这个文本特征对步骤三中模型提取得到的图片视觉特征进行图片特征约束2;图片特征约束2的计算公式如下:
L2=‖ft-fi‖2,
其中ft是步骤五中文本transformer特征编码器提取得到的文本特征,fi是步骤三中的模型提取的图片视觉特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210878434.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调旋转接头
- 下一篇:一种用于抽水泵的防过热保护装置