[发明专利]一种基于元特征的伪监督聚类方法在审
申请号: | 202211014611.2 | 申请日: | 2022-08-23 |
公开(公告)号: | CN115331040A | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 赵文仓;王浩;邵尤佳;杨同森 | 申请(专利权)人: | 青岛科技大学 |
主分类号: | G06V10/762 | 分类号: | G06V10/762;G06V10/764;G06V10/771;G06V10/30;G06V10/82;G06N3/04;G06N3/08 |
代理公司: | 青岛中天汇智知识产权代理有限公司 37241 | 代理人: | 韩丽萍 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 特征 监督 方法 | ||
1.一种基于元特征的伪监督聚类方法,其特征在于,包括以下步骤:
S1:将数据集输入深度模型进行预训练;
S2:将原始图像和数据增强后的图像输入预训练模型中分别用于实例级别特征提取和类别预测,利用分类器对类别样本进行预测,对置信度较高的样本特征进行挑选,选取高置信度的样本用于构建含有稳定语义信息的元特征fMeta;
选取每个类别概率最高的K个样本作为自信样本Ck,自信样本加权平均后作为元特征fMeta,
S3:伪标签构建和伪标签全局分配;即,获取元特征后,为元特征在全局范围内寻找语义最近邻样本,为元特征和对应的语义最近邻分配相同的伪标签,lk={N(fMeta)|k∈[1,2…,S]},其中,N(·)表示样本的全局最近邻,lk为元特征近邻分配的伪标签;
S4:伪标签优化深度模型,采用带有标签平滑的交叉熵损失指导并优化元特征的选取和伪标签的分配;
标签平滑方法通过添加均匀噪音来改进类别伪标签y,给定带有相应标签,将噪声注入所有类别,如下所示:
其中,C是类别数量,ε~Uniform(0,1)是噪声,y是类别伪标签,是添加均匀噪声后的类别伪标签;
使用添加均匀噪声后的类别伪标签和随机增强样本的预测标签来计算交叉熵,为其中,χ为数据集,pi由对模型倒数第二层输出的logits向量z应用到函数计算得到,Zj为目标类别。
2.根据权利要求1所述的一种基于元特征的伪监督聚类方法,其特征在于,步骤S1中的深度模型为对比学习模型MoCo,将数据集输入对比学习模型MoCo进行预训练,训练数据集均为图像数据集。
3.根据权利要求1所述的一种基于元特征的伪监督聚类方法,其特征在于,步骤S1中,当预训练的深度模型收敛之后,停止训练,将参数冻结,用于后续的深度模型进行实例级特征提取。
4.根据权利要求1所述的一种基于元特征的伪监督聚类方法,其特征在于,所述元特征由置信度最高的样本进行加权平均后形成,所述元特征是相应类别中概率最高、最具有类别代表性的特征,有效保证了该类别稳定的语义属性,能够有效表示该类别的语义信息。
5.根据权利要求1所述的一种基于元特征的伪监督聚类方法,其特征在于,步骤S2中将原始图像输入预训练深度模型,得到实例级特征;增强后的图像经过预训练深度模型后,将特征输入分类器,用于对样本概率进行预测,输出增强图像的预测概率,从中选取高置信度的样本特征并加权平均后作为元特征。
6.根据权利要求5所述的一种基于元特征的伪监督聚类方法,其特征在于,增强后的图像R(x)输入预训练深度模型后得到f(R(x)),经过由两层的多层感知机构成的分类器Φc,分类器输出增强图像预测概率Pk,其中,
Pk=Φc(f(R(x))),
Ck=topK(Pki,f(x));其中,Pki是指第i个类别的预测概率;f(x)是原图像输入预训练模型后得到的特征;topK()是挑选对应类别中K个概率最高的特征;Ck是自信样本,通过对相应类别的特征概率进行从高到低进行排列,选取前K个概率最高的作为Ck。
7.根据权利要求1所述的一种基于元特征的伪监督聚类方法,其特征在于,步骤S4中采用带有标签平滑的交叉熵损失函数,有效避免模型对于预测过于自信;通过不断迭代运行,分类器预测越来越准确,最终达到良好的聚类效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于青岛科技大学,未经青岛科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211014611.2/1.html,转载请声明来源钻瓜专利网。