[发明专利]一种半监督分类预测方法有效
申请号: | 201910188479.9 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109933619B | 公开(公告)日: | 2022-02-08 |
发明(设计)人: | 杨燕;汪衡 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/951;G06K9/62 |
代理公司: | 成都点睛专利代理事务所(普通合伙) 51232 | 代理人: | 葛启函 |
地址: | 610031 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务,减少类别局部区域的冗余来优化目标,减少过拟合的风险,从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程:首先从每个类别出发,找到每个类别的中心,然后选择中心的周围的局部区域;其次,考虑到局部区域的冗余性,利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题,能显著提升分类准确率。 | ||
搜索关键词: | 一种 监督 分类 预测 方法 | ||
【主权项】:
1.一种半监督分类预测方法,包括以下步骤:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;步骤三、寻找带有冗余的数据区域,具体实现步骤如下:(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p‑1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值将作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为为需要优化的冗余区域,为均匀空间集;步骤四、优化空间集并重新训练基模型;(1)在步骤三中获得冗余区域其中c1=n‑c2,c2为有限空间集数量;(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中(3)将步骤三中所获得的Qo,合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910188479.9/,转载请声明来源钻瓜专利网。
- 上一篇:一种新型的加密数据挖掘系统
- 下一篇:基于Spark的火电大数据挖掘方法