[发明专利]一种基于视觉特征约束的细粒度图像分类方法在审
申请号: | 202210878434.6 | 申请日: | 2022-07-25 |
公开(公告)号: | CN115410031A | 公开(公告)日: | 2022-11-29 |
发明(设计)人: | 沈冯立;李福生;赵彦春 | 申请(专利权)人: | 电子科技大学长三角研究院(湖州) |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06N20/00 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 郭美 |
地址: | 313000 浙江省湖州市西塞*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 视觉 特征 约束 细粒度 图像 分类 方法 | ||
本发明公开了一种基于视觉特征约束的细粒度图像分类方法。该方法包括如下步骤:利用CLIP方法的预训练视觉特征编码器提取图片的中间特征约束细粒度图像分类模型提取的中间特征;利用CLIP方法的预训练文本特征编码器提取的文本特征监督约束细粒度图像分类的提取的图片特征;利用CLIP方法的预训练视觉特征编码器获取训练图片的激活图,将其作为掩码对训练图片进行掩码处理后再获取掩码图片的视觉特征,将掩码图片特征与普通的视觉特征组合后再进行分类。本方法利用CLIP方法的图片和文本特征编码器帮助细粒度图像分类模型更好地提取细粒度图片的视觉特征,从而帮助提高细粒度图像分类模型的分类准确率。
技术领域
本发明属于计算机视觉技术,特别涉及一种基于视觉特征约束的细粒度图像分类方法。
背景技术
自然语言处理中使用大量的未处理数据作为训练数据得到的预训练模型,可以适用于不同的下游任务。但是计算机视觉中大量的预训练模型只能适用于部分与训练数据集分布类似的数据集,无法和自然语言处理模型一样适用于多类型的下游任务。因此,研究人员提出CLIP(Contrastive Language-Image Pre-training)方法。该方法充分地利用互联网上可以轻易爬取搜集得到的大量成对的文本和图像数据,将文本作为图像的标签训练一个具有较强泛化能力,便于迁移到其他下游任务的模型。
CLIP方法的主要过程如下:首先通过50万条查询文本在搜索引擎中得到4亿张图片,然后通过视觉特征编码器和文本特征编码器分别提取图片和文本的特征,最后利用度量学习的方法训练配对的视觉特征编码器和文本特征编码器。CLIP方法最后可以获得能提取图片特征的视觉特征编码器和提取文本特征的文本特征编码器,并且两个编码器提取的特征在同一个特征空间中,可以通过对比得到相似度。当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域。细粒度图片分类数据集中对于每张图片都会有对应的文本描述,正好可以结合CLIP方法中训练得到的文本特征编码器提取文本特征帮助细粒度图片分类。通过对模型提取的视觉特征进行约束从而提高细粒度模型的准确率。
发明内容
(一)要解决的技术问题
解决当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域的问题,提供了一种基于视觉特征约束的细粒度图像分类方法。
(二)技术方案
本发明的目的在于利用CLIP方法中得到的视觉特征编码器和文本编码器帮助细粒度图像分类模型提升性能,提供一种基于视觉特征约束的细粒度图像分类方法,具体包括以下步骤:
步骤一:训练数据集的采集;
步骤二:对训练图片进行数据预处理和数据增广;
步骤三:采用CLIP方法中的ViT-B/16模型作为基础模型提取训练图片的视觉特征;
步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些中间特征作为标准对步骤三中的ViT-B/16模型的中间特征进行约束,得到图片特征约束1;
步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;
步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;
步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210878434.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调旋转接头
- 下一篇:一种用于抽水泵的防过热保护装置