[发明专利]视觉类别的发现方法及装置、电子设备、存储介质有效
申请号: | 202110497720.3 | 申请日: | 2021-05-08 |
公开(公告)号: | CN112990377B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 秦永强;李素莹;敖川;纪双西 | 申请(专利权)人: | 创新奇智(北京)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 类别 发现 方法 装置 电子设备 存储 介质 | ||
本申请提供一种视觉类别的发现方法及装置、电子设备、计算机可读存储介质,方法包括:基于已训练的特征提取器,提取多个无标签数据和多个有标签数据的数据特征,构成目标数据集;对目标数据集中的数据特征进行半监督聚类,获得满足指定条件的指定聚类算法;其中,指定条件为聚类结果以第一有标签数据的类别标签确定;以指定聚类算法对多个无标签数据进行聚类,确定聚类簇数;以聚类簇数对已训练的第一分类模型进行调整;其中,第一分类模型包括特征提取器;以调整后的第一分类模型对无标签数据进行预测,获得无标签数据的伪标签编号。本申请方案,消除了不合理的聚类,实现了新品视觉类别的发现。
技术领域
本申请涉及图像处理技术领域,特别涉及一种视觉类别的发现方法及装置、电子设备、计算机可读存储介质。
背景技术
机器学习在图像分类任务上已经取得较为成功的应用和实践,但通常需要大量标注数据作为机器学习模型的训练集。在实际应用场景中,图像中要识别的类别会处于动态变化,短时间内要依靠人工对新类别进行标注几乎无法实现。比如,在零售产品识别场景中,超市或零售店每周甚至每天都会有大量新品、新包装引入,对于图像分类任务而言,新品或新包装均属于新的类别。
发明内容
本申请实施例的目的在于提供一种视觉类别的发现方法及装置、电子设备、计算机可读存储介质,用于发现图像中的目标类别,并可确定新类别。
一方面,本申请提供了一种视觉类别的发现方法,包括:
基于已训练的特征提取器,提取多个无标签数据和多个有标签数据的数据特征,构成目标数据集;
对所述目标数据集中的数据特征进行半监督聚类,获得满足指定条件的指定聚类算法;其中,所述指定条件为聚类结果以第一有标签数据的类别标签确定;
以所述指定聚类算法对所述多个无标签数据进行聚类,确定聚类簇数;
以所述聚类簇数对已训练的第一分类模型进行调整;其中,所述第一分类模型包括所述特征提取器;
以调整后的第一分类模型对所述无标签数据进行预测,获得所述无标签数据的伪标签编号。
在一实施例中,在所述提取多个无标签数据和多个有标签数据的数据特征之前,所述方法还包括:
利用所述多个有标签数据对未训练的第二分类模型进行训练,获得已训练的第二分类模型;其中,所述未训练的第二分类模型包括经过初步训练的特征提取器和未训练的第二分类器头,所述已训练的第二分类模型包括已训练的第二分类器头和已训练的特征提取器。
在一实施例中,所述指定聚类算法包括多个子聚类算法;
所述以所述指定聚类算法对所述多个无标签数据进行聚类,包括:
针对每一子聚类算法对所述目标数据集中无标签数据和第二有标签数据对应数据特征的聚类结果,依据评估算法对所述聚类结果进行评估;
选择评估效果最好的子聚类算法对所述多个无标签数据的数据特征进行聚类。
在一实施例中,在所述以所述聚类簇数对已训练的第一分类模型进行调整之前,所述方法还包括:
根据多个无标签数据构建多个无标签数据对;其中,所述无标签数据对包括两个无标签数据;
通过经过初步训练的特征提取器提取所述无标签数据对中无标签数据的数据特征;
判断所述无标签数据对中两个无标签数据的数据特征是否匹配;
根据匹配结果为所述无标签数据对生成匹配标签;
依据携带所述匹配标签的无标签数据对,对未训练的第一分类模型进行训练,获得已训练的第一分类模型。
在一实施例中,所述数据特征为多维向量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(北京)科技有限公司,未经创新奇智(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110497720.3/2.html,转载请声明来源钻瓜专利网。