[发明专利]一种基于半监督学习的分类方法、设备及存储介质在审
申请号: | 202210135599.4 | 申请日: | 2022-02-14 |
公开(公告)号: | CN114492843A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 岳许要;黄宇恒;魏东;金晓峰;徐天适 | 申请(专利权)人: | 广州广电运通金融电子股份有限公司 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06K9/62 |
代理公司: | 杭州创智卓英知识产权代理事务所(普通合伙) 33324 | 代理人: | 张迪 |
地址: | 510000 广东省广州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 分类 方法 设备 存储 介质 | ||
1.一种基于半监督学习的分类方法,其特征在于,包括:
获取训练数据以更新分类模型,基于更新后的所述分类模型对未标注数据进行伪标签预测,为预测所得的伪标签数据计算其对应的监督损失函数并对其进行正则化处理;
对所述训练数据进行增广处理以获得目标数据,基于所述训练数据和所述目标数据之间的欧式距离计算出同一数据在高层语义特征上的相似性,并将其作为无监督损失函数与所述监督损失函数进行融合以获得总损失函数;
根据所述总损失函数对所述分类模型进行优化,基于优化后的所述分类模型对预测样本进行分类。
2.根据权利要求1所述的基于半监督学习的分类方法,其特征在于,所述训练数据包括已标注数据和未标注数据;所述分类模型预先利用所述已标注数据训练获得。
3.根据权利要求2所述的基于半监督学习的分类方法,其特征在于,基于更新后的所述分类模型对未标注数据进行伪标签预测的方法为:
将所述训练数据导入所述分类模型中进行数据分类以区分出所述已标注数据以及所述未标注数据,为所述未标注数据生成对应的伪标签。
4.根据权利要求1所述的基于半监督学习的分类方法,其特征在于,对所述未标注数据进行伪标签预测过程中,还包括:
将分类置信度小于预设阈值的预测结果进行置零处理。
5.根据权利要求1所述的基于半监督学习的分类方法,其特征在于,对所述伪标签数据的监督损失函数进行正则化处理的方法包括:
利用交叉熵算法L=-∑ipilog pi对所述伪标签数据的监督损失函数进行正则化处理;其中,pi表示训练数据样本i的最大置信度。
6.根据权利要求5所述的基于半监督学习的分类方法,其特征在于,对所述伪标签数据的监督损失函数进行正则化处理的方法还包括:
为每个训练数据的样本类别设置其对应的权重系数,利用对所述伪标签数据的监督损失函数进行正则化处理;其中c表示类别数,ωi表示权重系数,Li表示第i类样本的损失函数。
7.根据权利要求1所述的基于半监督学习的分类方法,其特征在于,所述无监督损失函数的计算方法为:
根据计算同一训练数据在增广处理前和增广处理后之间的欧氏距离作为无监督损失函数;其中,fi表示第i个训练数据在增广处理前的特征向量,fAi表示第i个训练数据在增广处理后的特征向量,||·||表示求向量模长。
8.根据权利要求1所述的基于半监督学习的分类方法,其特征在于,对所述分类模型进行优化的方法为:
其中,L1表示已标注数据的损失函数,L2表示未标注数据的损失函数,deuclidean表示增广处理前后分类结果的无监督损失函数,λi表示第i类数据损失函数所对应的权重,q表示预测标签的最大概率值。
9.一种电子设备,其特征在于,其包括处理器、存储器及存储于所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1~8任一所述的基于半监督学习的分类方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现权利要求1~8任一所述的基于半监督学习的分类方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州广电运通金融电子股份有限公司,未经广州广电运通金融电子股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210135599.4/1.html,转载请声明来源钻瓜专利网。