[发明专利]基于不平衡分类指标与集成学习的不平衡数据分类方法在审
申请号: | 201510413029.7 | 申请日: | 2015-07-14 |
公开(公告)号: | CN104951809A | 公开(公告)日: | 2015-09-30 |
发明(设计)人: | 张向荣;焦李成;宋润青;李阳阳;白静;马文萍;侯彪;马晶晶 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 不平衡 分类 指标 集成 学习 数据 方法 | ||
技术领域
本发明属于数据处理领域,涉及集成学习分类方法,具体是一种基于不平衡分类指标与集成学习的不平衡数据分类方法,可用于不平衡数据的分类与识别。
背景技术
伴随着全球信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特别大,但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数据数量明显少于其他类样本的数据集被称作不平衡数据集,不平衡数据集的分类问题大量存在于现实生活之中。例如,检测公民的信用申请是否存在欺诈,一般情况下欺诈申请要远少于合法申请;利用诊疗数据诊断病人的疾病,如心脏病患者要远少于健康的人。在这些实际应用中,人们更关心的是数据集中的少数类,即样本数目远少于其他类样本的一类样本,而且这些少数类的错分代价往往非常大,因此需要有效提高少数类的分类精度。
近几年来,不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注,国内外学者对不平衡数据的研究主要有两个方面:一是基于数据采样的方法,其主要目的是通过对数据进行预处理降低数据的不平衡度,如模拟增加少数类样本的少数类样本合成过采样技术SMOTE;二是基于分类算法的方法,Veropoulos等人提出的不同惩罚参数的支持向量机Biased-SVM,为各类样本指派不同的惩罚参数,从一定程度上抵消了数据不平衡度对支持向量机的影响。
面对不平衡数据集的学习问题,研究的困难主要来自于不平衡数据本身的特点:不平衡数据集中的少数类样本不足,样本的分布并不能很好的反映整个类的实际分布;多数类通常会夹杂噪声数据,使得两类样本往往会出现不同程度的重叠。此外,传统的机器学习领域的分类方法,在直接应用于不平衡数据时,如果没有考虑数据的不平衡性,容易将少数类样本错分为多数类,尽管整体的分类精度比较高,但对少数类的分类精度非常低。
发明内容
本发明的目的在于针对上述已有技术的不足,提出一种基于不平衡分类指标与集成学习的不平衡数据分类方法,以提高分类器对少数类的分类精度。
为实现上述目的,本发明技术方案包括如下步骤:
(1)输入一个包含两类数据的不平衡数据集,并将样本较多的类记作多数类,样本较少的类记作少数类,从该不平衡数据集中随机选取十分之九的样本作为训练样本,将剩余的样本作为测试样本,并设定最大迭代次数T;
(2)设训练样本初始权重服从均匀分布,即每一个(xi,yi)∈S,其中i=1,2,...,N,t=1,N表示训练样本的个数,S表示训练集,xi表示第i个训练样本,yi表示第i个训练样本的类别标识,Dt表示第t轮中训练样本的样本权重;
(3)根据第t轮中训练样本的样本权重Dt选取第t轮生成的弱分类器的训练样本,用选取的训练样本对支持向量机进行训练,获得第t轮生成的弱分类器ht,用弱分类器ht对所有训练样本进行分类,得到训练样本的预测类标ht(xi),其中i=1,2,...,N;
(4)计算第t轮生成的弱分类器ht在训练集上的错误率:其中,Dt(xi,yi)表示第t轮中训练样本xi的样本权重,ht(xi)表示第t轮训练后生成的弱分类器ht对第i个训练样本xi的预测类标,yi表示第i个训练样本的类别标识;
(5)将错误率εt与设定的阈值k=0.5进行比较:若εt≥k,令最大迭代次数T=t-1,转到步骤(9);若εt<k,则执行步骤(6);
(6)计算不平衡问题的评价指标G,用G优化εt,得到优化后的错误率εt*=εt×(1-G)λ,其中λ是惩罚参数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510413029.7/2.html,转载请声明来源钻瓜专利网。