[发明专利]一种半监督分类预测方法有效

申请号：	201910188479.9	申请日：	2019-03-13
公开（公告）号：	CN109933619B	公开（公告）日：	2022-02-08
发明（设计）人：	杨燕;汪衡	申请（专利权）人：	西南交通大学
主分类号：	G06F16/2458	分类号：	G06F16/2458;G06F16/951;G06K9/62
代理公司：	成都点睛专利代理事务所(普通合伙) 51232	代理人：	葛启函
地址：	610031 四***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于半监督算法和消除类别区域冗余的方法。属于数据挖掘领域。该方法针对分类预测任务，减少类别局部区域的冗余来优化目标，减少过拟合的风险，从而得到对整体判别能力较强的模型。该方法的实施思路分为两个过程：首先从每个类别出发，找到每个类别的中心，然后选择中心的周围的局部区域；其次，考虑到局部区域的冗余性，利用随机采样的方法减少数据的冗余度。本发明可用于疾病诊断、文本分类、人脸识别、语音识别等诸多分类的样本冗余问题，能显著提升分类准确率。
搜索关键词：	一种监督分类预测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种半监督分类预测方法，包括以下步骤：步骤一、构建有标签数据和无标签数据：(1)利用爬虫技术从互联网中获取数据，或者利用已有的数据集；这些数据集中每个样本将包括具体的属性特征；(2)在整个数据集中，每个样本的类别将由标签唯一表示；其中，有标签表示的样本称为有标签数据，无标签表示的样本称为无标签数据；步骤二、对无标签数据进行伪标签标记：(1)利用数据集中的有标签数据，训练一个基模型分类器；(2)利用基模型分类器对无标签数据进行预测，并给出每个样本在类别上的概率值；设置一个高置信度阈值δ，与所有样本的所属类别概率值比较，将大于置信度δ的伪标签数据加入到原来的训练集A＝[L₁,L₂,...,L_c]∈R^c，小于置信度δ保留为无标签数据B＝[U₁,U₂,...,U_c]∈R^c；其中L_k为类别为k的数据集，k＝1,2,3...；R表示实体，c为数据的所有类别数目；步骤三、寻找带有冗余的数据区域，具体实现步骤如下：(1)获得有标签的数据集A＝[L₁,L₂,...,L_c]∈R^c，将类别为k有标签数据记为L_k，并记样本集L_k＝[l₁,l₂,...,l_n]∈R^p×n，其中样本属性值集为X＝[x₁,x₂,...,x_n]∈R^(p‑1)×n,样本标签值为Y＝[y₁,y₂,...,y_n]∈R^1×n；设样本集X的均值将作为样本集L_k的数据中心；其中，n为视图X，Y的样本个数，p分别为样本X的属性个数，x_i和y_i分别表示X，Y的第i个样本；(2)对所有的类别求数据中心M＝[m₁,m₂,...,m_c]∈R^p×c；分别围绕每个中心产生一个有限空间，将有限空间里的样本记为q_k，记有限空间集为Q＝[q₁,q₂,...,q_c]∈R^c；(3)在充分考虑每个类别的样本的分布情况下，获得一个距离阈值τ，将量化有限空间中所有样本到中心的距离，利用阈值及中心M对有标签数据进行划分。在同样量化的目标下，将数据样本到中心M的距离小于τ的量化空间集作为以及将数据样本到中心M的距离大于τ的量化空间集作为(4)同时，τ控制每个中心的样本密度针对所有量化空间集Q^τ，利用密度阈值ρ_τ对数据集Q^τ划分为为需要优化的冗余区域，为均匀空间集；步骤四、优化空间集并重新训练基模型；(1)在步骤三中获得冗余区域其中c1＝n‑c2，c2为有限空间集数量；(2)在充分考虑每个冗余区域的中心密度，利用随机采样的方法对有限量化空间里的数据进行离散化；设置采样率η将保证数据的平稳性，记采样后的量化空间为其中(3)将步骤三中所获得的Q^o，合并成新的有标签数据集，然后重复步骤二，直到无标签数据集为空，或者到达所设定的迭代次数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西南交通大学，未经西南交通大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910188479.9/，转载请声明来源钻瓜专利网。

上一篇：一种新型的加密数据挖掘系统
下一篇：基于Spark的火电大数据挖掘方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种半监督分类预测方法有效

专利文献下载