[发明专利]一种基于半监督学习的分类方法、设备及存储介质在审

申请号：	202210135599.4	申请日：	2022-02-14
公开（公告）号：	CN114492843A	公开（公告）日：	2022-05-13
发明（设计）人：	岳许要;黄宇恒;魏东;金晓峰;徐天适	申请（专利权）人：	广州广电运通金融电子股份有限公司
主分类号：	G06N20/00	分类号：	G06N20/00;G06K9/62
代理公司：	杭州创智卓英知识产权代理事务所(普通合伙) 33324	代理人：	张迪
地址：	510000 广东省广州市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督学习分类方法设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于半监督学习的分类方法、设备及存储介质，其分类方法包括：获取训练数据以更新分类模型，基于更新后的所述分类模型对未标注数据进行伪标签预测，为预测所得的伪标签数据计算其对应的监督损失函数并对其进行正则化处理；对所述训练数据进行增广处理以获得目标数据，基于所述训练数据和所述目标数据之间的欧式距离计算出同一数据在高层语义特征上的相似性，并将其作为无监督损失函数与所述监督损失函数进行融合以获得总损失函数；根据所述总损失函数对所述分类模型进行优化，基于优化后的所述分类模型对预测样本进行分类。本发明可有效地提高了模型收敛速度及模型分类准确率，并降低了研发业务中的数据标注需求。

技术领域

本发明涉及深度学习技术领域，尤其涉及一种基于半监督学习的分类方法、设备及存储介质。

背景技术

数据是驱动深度学习技术发展的主要因素之一，现实中有海量的数据，但仅有一小部分是经过标注的，目前的监督学习仅用已标注的数据进行训练，性能受限。而半监督学习同时使用已标注数据和未标注数据对模型进行优化，进而提升模型的泛化能力。而现在有的半监督学习过程中由于未标注数据未经过人工审核，其可信度较低；且针对半监督学习中无标签数据相对较多，使得模型优化难度提升，导致无法提升模型收敛速度以及模型分类准确率。

发明内容

为了克服现有技术的不足，本发明的目的之一在于提供一种基于半监督学习的分类方法，可有效地提高了模型收敛速度及模型分类准确率，并降低了研发业务中的数据标注需求。

本发明的目的之二在于提供一种电子设备。

本发明的目的之三在于提供一种计算机可读存储介质。

本发明的目的之一采用如下技术方案实现：

一种基于半监督学习的分类方法，包括：

获取训练数据以更新分类模型，基于更新后的所述分类模型对未标注数据进行伪标签预测，为预测所得的伪标签数据计算其对应的监督损失函数并对其进行正则化处理；

对所述训练数据进行增广处理以获得目标数据，基于所述训练数据和所述目标数据之间的欧式距离计算出同一数据在高层语义特征上的相似性，并将其作为无监督损失函数与所述监督损失函数进行融合以获得总损失函数；

根据所述总损失函数对所述分类模型进行优化，基于优化后的所述分类模型对预测样本进行分类。

进一步地，所述训练数据包括已标注数据和未标注数据；所述分类模型预先利用所述已标注数据训练获得。

进一步地，基于更新后的所述分类模型对未标注数据进行伪标签预测的方法为：

将所述训练数据导入所述分类模型中进行数据分类以区分出所述已标注数据以及所述未标注数据，为所述未标注数据生成对应的伪标签。