[发明专利]一种半监督分类预测方法有效
申请号: | 201910188479.9 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109933619B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨燕;汪衡 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/951;G06K9/62 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 葛启函 |
地址: | 610031 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 分类 预测 方法 | ||
本发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务,减少类别局部区域的冗余来优化目标,减少过拟合的风险,从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程:首先从每个类别出发,找到每个类别的中心,然后选择中心的周围的局部区域;其次,考虑到局部区域的冗余性,利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题,能显著提升分类准确率。
技术领域
本发明属于数据挖掘技术领域。
背景技术
随着信息技术的快速发展,基于大数据的科学研究和生产实践已经普遍化。然而,随着数据量的增加,传统的监督学习需要大量有标记的样本,大量数据的标注会造成人力资源的浪费。因此,人们提出了半监督的方法。
基于半监督的学习同时从有标签数据和无标签数据中同时获得背后有价值的信息,同时解决大量数据标注的问题。其中,半监督的集成方法作为目前主流的方法,在疾病诊断、文本分类、人脸识别、语音识别、网页分类等研究领域得到了广泛的应用。然而,在某些情况下,多数分类器的预测结果可能是错误的,此时,从少数分类器的角度看,它收到的是有“有标记噪音”的样本,从而对整个模型将会产生较大的误差,因此在分类任务中并不是能够达到最好的性能。
因此,专门针对分类预测任务,综合考虑数据的分布和类别之间的相关性,提出一种半监督分类预测方法,获得更加均匀的数据分布,提高后续分类预测任务的准确率。
通过对现有的专利及相关技术的检索发现,现有的关于半监督的方法主要有:
(1)李寿山,张栋等.一种tri-training半监督学习方法及装置,CN104794500A[p].2015.
提出一种利用训练数据分别训练三个基分类器,分别利用三个分类器获取与之相对应的第二待标注的类别标签;当三个分类器的至少两个个基分类器确定的第二待标注样本的类别标签相同时,则确定第二待标注样本的类别标签为第二待标注标签最终标注的类别标签;将最终标注完成的第二待标注样本添加到第一标注样本中,以获取第三标注样本,并在第三标注样本上训练第四基分类器,有效的降低了对第二待标注样本的误标注率,提高了标注集的质量,进而获得了更好的半监督学习的效果。
(2)杜兰,王燕等.基于半监督协同训练的SAR目标鉴别方法,CN107977667A[p].2018.
提出一种基于半监督协同训练的SAR图像目标鉴别方法,其实现过程是:1)将恒虚警率CFAR检测切片作为训练样本,从中取少量的样本进行标记;2)提取训练样本的两个林肯特征组;3)用标记过样本的两个林肯特征组训练两个分类器;4)利用3)得到的分类器对无标记样本进行鉴别;5)两个分类器挑选各自置信度较高的少数样本加入到对方的有标记训练样本中;6)利用新的有标记样本重复4)#5)得到最终的分类器;7)用分类器对测试样本进行分类,得到分类结果。
(3)沈琦,牛立坤.基于改进的SVM-KNN算法的半监督托攻击检测方法,CN108154178A[p].2018.
提出一种基于改进的SVM-KNN算法的半监督托攻击检测方法,包括:将已标记训练集训练出初始SVM分类器;利用初始SVM分类器对未标记数据集进行分类;将正常数据并入训练集中,以改进的KNN相似度公式作为KNN算法的距离公式,对其余的数据进行二次分类;更新训练集,并重新训练新的SVM分类器;判断分类结果是否达到最佳检测性能,若判定是,则输出最终分类器,否则循环对未标记数据集进行分类;利用最终分类器对数据进行托攻击检测。
(4)房鼎益,郑欣等.一种多视角数据的半监督特征选择方法,CN106228027A[p].2016.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910188479.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的加密数据挖掘系统
- 下一篇:基于Spark的火电大数据挖掘方法