[发明专利]一种半监督分类预测方法有效

专利信息
申请号: 201910188479.9 申请日: 2019-03-13
公开(公告)号: CN109933619B 公开(公告)日: 2022-02-08
发明(设计)人: 杨燕;汪衡 申请(专利权)人: 西南交通大学
主分类号: G06F16/2458 分类号: G06F16/2458;G06F16/951;G06K9/62
代理公司: 成都点睛专利代理事务所(普通合伙) 51232 代理人: 葛启函
地址: 610031 四*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务,减少类别局部区域的冗余来优化目标,减少过拟合的风险,从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程:首先从每个类别出发,找到每个类别的中心,然后选择中心的周围的局部区域;其次,考虑到局部区域的冗余性,利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题,能显著提升分类准确率。
搜索关键词: 一种 监督 分类 预测 方法
【主权项】:
1.一种半监督分类预测方法,包括以下步骤:步骤一、构建有标签数据和无标签数据:(1)利用爬虫技术从互联网中获取数据,或者利用已有的数据集;这些数据集中每个样本将包括具体的属性特征;(2)在整个数据集中,每个样本的类别将由标签唯一表示;其中,有标签表示的样本称为有标签数据,无标签表示的样本称为无标签数据;步骤二、对无标签数据进行伪标签标记:(1)利用数据集中的有标签数据,训练一个基模型分类器;(2)利用基模型分类器对无标签数据进行预测,并给出每个样本在类别上的概率值;设置一个高置信度阈值δ,与所有样本的所属类别概率值比较,将大于置信度δ的伪标签数据加入到原来的训练集A=[L1,L2,...,Lc]∈Rc,小于置信度δ保留为无标签数据B=[U1,U2,...,Uc]∈Rc;其中Lk为类别为k的数据集,k=1,2,3...;R表示实体,c为数据的所有类别数目;步骤三、寻找带有冗余的数据区域,具体实现步骤如下:(1)获得有标签的数据集A=[L1,L2,...,Lc]∈Rc,将类别为k有标签数据记为Lk,并记样本集Lk=[l1,l2,...,ln]∈Rp×n,其中样本属性值集为X=[x1,x2,...,xn]∈R(p‑1)×n,样本标签值为Y=[y1,y2,...,yn]∈R1×n;设样本集X的均值作为样本集Lk的数据中心;其中,n为视图X,Y的样本个数,p分别为样本X的属性个数,xi和yi分别表示X,Y的第i个样本;(2)对所有的类别求数据中心M=[m1,m2,...,mc]∈Rp×c;分别围绕每个中心产生一个有限空间,将有限空间里的样本记为qk,记有限空间集为Q=[q1,q2,...,qc]∈Rc;(3)在充分考虑每个类别的样本的分布情况下,获得一个距离阈值τ,将量化有限空间中所有样本到中心的距离,利用阈值及中心M对有标签数据进行划分。在同样量化的目标下,将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为(4)同时,τ控制每个中心的样本密度针对所有量化空间集Qτ,利用密度阈值ρτ对数据集Qτ划分为为需要优化的冗余区域,为均匀空间集;步骤四、优化空间集并重新训练基模型;(1)在步骤三中获得冗余区域其中c1=n‑c2,c2为有限空间集数量;(2)在充分考虑每个冗余区域的中心密度,利用随机采样的方法对有限量化空间里的数据进行离散化;设置采样率η将保证数据的平稳性,记采样后的量化空间为其中(3)将步骤三中所获得的Qo合并成新的有标签数据集,然后重复步骤二,直到无标签数据集为空,或者到达所设定的迭代次数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910188479.9/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top