[发明专利]一种基于视觉特征约束的细粒度图像分类方法在审

专利信息
申请号: 202210878434.6 申请日: 2022-07-25
公开(公告)号: CN115410031A 公开(公告)日: 2022-11-29
发明(设计)人: 沈冯立;李福生;赵彦春 申请(专利权)人: 电子科技大学长三角研究院(湖州)
主分类号: G06V10/764 分类号: G06V10/764;G06V10/774;G06N20/00
代理公司: 北京金智普华知识产权代理有限公司 11401 代理人: 郭美
地址: 313000 浙江省湖州市西塞*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 视觉 特征 约束 细粒度 图像 分类 方法
【说明书】:

发明公开了一种基于视觉特征约束的细粒度图像分类方法。该方法包括如下步骤:利用CLIP方法的预训练视觉特征编码器提取图片的中间特征约束细粒度图像分类模型提取的中间特征;利用CLIP方法的预训练文本特征编码器提取的文本特征监督约束细粒度图像分类的提取的图片特征;利用CLIP方法的预训练视觉特征编码器获取训练图片的激活图,将其作为掩码对训练图片进行掩码处理后再获取掩码图片的视觉特征,将掩码图片特征与普通的视觉特征组合后再进行分类。本方法利用CLIP方法的图片和文本特征编码器帮助细粒度图像分类模型更好地提取细粒度图片的视觉特征,从而帮助提高细粒度图像分类模型的分类准确率。

技术领域

本发明属于计算机视觉技术,特别涉及一种基于视觉特征约束的细粒度图像分类方法。

背景技术

自然语言处理中使用大量的未处理数据作为训练数据得到的预训练模型,可以适用于不同的下游任务。但是计算机视觉中大量的预训练模型只能适用于部分与训练数据集分布类似的数据集,无法和自然语言处理模型一样适用于多类型的下游任务。因此,研究人员提出CLIP(Contrastive Language-Image Pre-training)方法。该方法充分地利用互联网上可以轻易爬取搜集得到的大量成对的文本和图像数据,将文本作为图像的标签训练一个具有较强泛化能力,便于迁移到其他下游任务的模型。

CLIP方法的主要过程如下:首先通过50万条查询文本在搜索引擎中得到4亿张图片,然后通过视觉特征编码器和文本特征编码器分别提取图片和文本的特征,最后利用度量学习的方法训练配对的视觉特征编码器和文本特征编码器。CLIP方法最后可以获得能提取图片特征的视觉特征编码器和提取文本特征的文本特征编码器,并且两个编码器提取的特征在同一个特征空间中,可以通过对比得到相似度。当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域。细粒度图片分类数据集中对于每张图片都会有对应的文本描述,正好可以结合CLIP方法中训练得到的文本特征编码器提取文本特征帮助细粒度图片分类。通过对模型提取的视觉特征进行约束从而提高细粒度模型的准确率。

发明内容

(一)要解决的技术问题

解决当前有很多的下游任务采用CLIP方法,通过预训练的编码器的帮助提升性能,但还没有将CLIP方法应用在细粒度图片分类领域的问题,提供了一种基于视觉特征约束的细粒度图像分类方法。

(二)技术方案

本发明的目的在于利用CLIP方法中得到的视觉特征编码器和文本编码器帮助细粒度图像分类模型提升性能,提供一种基于视觉特征约束的细粒度图像分类方法,具体包括以下步骤:

步骤一:训练数据集的采集;

步骤二:对训练图片进行数据预处理和数据增广;

步骤三:采用CLIP方法中的ViT-B/16模型作为基础模型提取训练图片的视觉特征;

步骤四:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器提取步骤三中训练图片的视觉特征,每一层编码器输出提取图片得到的中间特征;将这些中间特征作为标准对步骤三中的ViT-B/16模型的中间特征进行约束,得到图片特征约束1;

步骤五:每张训练图片都有对应的描述性文本数据,利用CLIP方法中在大型数据集上预训练得到的transformer文本特征编码器提取步骤三中训练图片所对应的描述性文本数据得到文本特征;将这些文本特征作为标准对步骤三中模型得到的图片视觉特征向量进行约束,得到图片特征约束2;

步骤六:利用CLIP方法中在大型数据集上预训练得到的ViT-B/16视觉特征编码器获取训练图片的激活图(activation map),将激活图作为掩码对训练图片进行掩码处理;

步骤七:用步骤三的模型提取步骤六中掩码处理后的图片的视觉特征,得到掩码图片视觉特征;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学长三角研究院(湖州),未经电子科技大学长三角研究院(湖州)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210878434.6/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top