[发明专利]基于半监督深度分类算法的数据分类方法、设备及装置有效
申请号: | 202110488533.9 | 申请日: | 2021-04-30 |
公开(公告)号: | CN113221995B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 孙翀;何开杰;王江晴;帖军;郑禄;夏梦;王雪言 | 申请(专利权)人: | 中南民族大学;阿拉山口市科学技术局 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 杨培权 |
地址: | 430000 湖北省武*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 深度 分类 算法 数据 方法 设备 装置 | ||
本发明属于数据处理技术领域,公开了一种基于半监督深度分类算法的数据分类方法、设备及装置。该方法包括:根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,通过目标半监督分类模型对从数据源获取的原始数据进行处理,以获取目标数据,通过目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过目标分类器对待分类数据进行分类。由此,由有标签数据和无标签数据训练构建的初始半监督分类模型,使得到的目标半监督分类模型学习了数据全样本分布,并通过目标半监督分类模型得到优化数据对分类器训练,使用于分类器训练的数据具有全面性与准确性,从而使分类器具有较高分类准确性。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于半监督深度分类算法的数据分类方法、设备及装置。
背景技术
随着大数据时代的到来,数字化已成为当下潮流,海量数据充斥着人们的日常生活,而根据不同人群的不同需求,人们对数据的需求也有所不同,因此,如何对海量数据进行准确分类以得到人们所需的目标数据成为当前亟待解决的问题。
传统数据分类方法大多采用分类器进行数据分类,但在传统方法中,对于分类器训练所使用的数据不具有完整性,使得训练得到的分类器分类能力不强,分类准确率不高。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种基于半监督深度分类算法的数据分类方法、设备及装置,旨在解决现有技术数据分类准确率不高的技术问题。
为实现上述目的,本发明提供了一种基于半监督深度分类算法的数据分类方法,所述方法包括以下步骤:
根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型;
通过所述目标半监督分类模型对从数据源获取的原始数据进行处理,以得到目标数据;
通过所述目标数据对预设分类器进行训练,得到训练后的目标分类器,并通过所述训练后的目标分类器对待分类数据进行分类。
可选地,所述根据有标签数据和无标签数据构建的训练数据集对初始半监督分类模型进行训练,得到目标半监督分类模型,包括:
将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据;
从数据源获取标准数据,并通过所述初始半监督分类模型中的鉴别器获取所述预测数据与所述标准数据对应的鉴别结果;
判断所述鉴别结果是否达标;
在所述鉴别结果不达标时,对所述初始半监督分类模型进行迭代训练,获得迭代训练后的半监督分类模型;
基于所述迭代训练后的半监督分类模型,返回所述将有标签数据和无标签数据构建的训练数据集输入至初始半监督分类模型,以获得预测数据的步骤,直至判断出鉴别结果达标;
基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型。
可选地,所述基于鉴别结果达标时的中继半监督分类模型生成目标半监督分类模型,具体包括:
获取鉴别结果达标时对应的预测数据,并通过所述中继半监督分类模型的编码器获取所述预测数据对应的隐藏变量及所述隐藏变量所对应的隐藏变量分布;
获取隐藏变量的先验分布,并根据wasserstein距离对所述先验分布及所述隐藏变量分布进行度量,获取度量结果;
在所述度量结果未达到预设度量结果时,根据所述中继半监督分类模型的超参数对所述中继半监督分类模型进行迭代训练,获得目标半监督分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南民族大学;阿拉山口市科学技术局,未经中南民族大学;阿拉山口市科学技术局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110488533.9/2.html,转载请声明来源钻瓜专利网。