[发明专利]视觉类别的发现方法及装置、电子设备、存储介质有效
申请号: | 202110497720.3 | 申请日: | 2021-05-08 |
公开(公告)号: | CN112990377B | 公开(公告)日: | 2021-08-13 |
发明(设计)人: | 秦永强;李素莹;敖川;纪双西 | 申请(专利权)人: | 创新奇智(北京)科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 钟扬飞 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视觉 类别 发现 方法 装置 电子设备 存储 介质 | ||
1.一种视觉类别的发现方法,其特征在于,包括:
基于已训练的特征提取器,提取多个无标签数据和多个有标签数据的数据特征,构成目标数据集;其中,所述无标签数据和所述有标签数据为图像数据;
对所述目标数据集中的数据特征进行半监督聚类,获得满足指定条件的指定聚类算法;其中,所述指定条件为聚类结果以第一有标签数据的类别标签确定;
以所述指定聚类算法对所述多个无标签数据进行聚类,确定聚类簇数;
以所述聚类簇数对已训练的第一分类模型进行调整,使得所述第一分类模型中第一分类器头的全连接层指示的类别数等同于所述聚类簇数;其中,所述第一分类模型包括所述特征提取器;
以调整后的第一分类模型对所述无标签数据进行预测,获得所述无标签数据的伪标签编号。
2.根据权利要求1所述的方法,其特征在于,在所述提取多个无标签数据和多个有标签数据的数据特征之前,所述方法还包括:
利用所述多个有标签数据对未训练的第二分类模型进行训练,获得已训练的第二分类模型;其中,所述未训练的第二分类模型包括经过初步训练的特征提取器和未训练的第二分类器头,所述已训练的第二分类模型包括已训练的第二分类器头和已训练的特征提取器。
3.根据权利要求1所述的方法,其特征在于,所述指定聚类算法包括多个子聚类算法;
所述以所述指定聚类算法对所述多个无标签数据进行聚类,包括:
针对每一子聚类算法对所述目标数据集中无标签数据和第二有标签数据对应数据特征的聚类结果,依据评估算法对所述聚类结果进行评估;
选择评估效果最好的子聚类算法对所述多个无标签数据的数据特征进行聚类。
4.根据权利要求1所述的方法,其特征在于,在所述以所述聚类簇数对已训练的第一分类模型进行调整之前,所述方法还包括:
根据多个无标签数据构建多个无标签数据对;其中,所述无标签数据对包括两个无标签数据;
通过经过初步训练的特征提取器提取所述无标签数据对中无标签数据的数据特征;
判断所述无标签数据对中两个无标签数据的数据特征是否匹配;
根据匹配结果为所述无标签数据对生成匹配标签;
依据携带所述匹配标签的无标签数据对,对未训练的第一分类模型进行训练,获得已训练的第一分类模型。
5.根据权利要求4所述的方法,其特征在于,所述数据特征为多维向量;
所述判断所述无标签数据对中两个无标签数据的数据特征是否匹配,包括:
针对所述无标签数据对中两个无标签数据的数据特征,分别选择所述数据特征最大的指定数量维度的元素,构成所述数据特征的比较参数;
判断两个无标签数据对应的比较参数之间的相似度是否达到预设相似度阈值;
如果是,确定所述无标签数据对中两个无标签数据的数据特征匹配。
6.根据权利要求2或4所述的方法,其特征在于,所述特征提取器通过如下方式训练得到:
以有标签数据集的有标签数据和无标签数据集的无标签数据作为训练数据;
提取所述训练数据的基础特征,作为所述训练数据的基础特征标签;
根据添加所述基础特征标签的多个训练数据,对所述特征提取器进行训练,获得经过初步训练的特征提取器。
7.根据权利要求6所述的方法,其特征在于,所述提取所述训练数据的基础特征,作为所述训练数据的基础特征标签,包括:
通过数据增强对所述训练数据进行随机旋转,获得所述训练数据的旋转方向信息,作为基础特征;
将所述旋转方向信息作为所述训练数据的基础特征标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新奇智(北京)科技有限公司,未经创新奇智(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110497720.3/1.html,转载请声明来源钻瓜专利网。