[发明专利]基于不平衡分类指标与集成学习的不平衡数据分类方法在审

申请号：	201510413029.7	申请日：	2015-07-14
公开（公告）号：	CN104951809A	公开（公告）日：	2015-09-30
发明（设计）人：	张向荣;焦李成;宋润青;李阳阳;白静;马文萍;侯彪;马晶晶	申请（专利权）人：	西安电子科技大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	陕西电子工业专利中心 61205	代理人：	王品华;张问芬
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于不平衡分类指标集成学习数据方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于数据处理领域，涉及集成学习分类方法，具体是一种基于不平衡分类指标与集成学习的不平衡数据分类方法，可用于不平衡数据的分类与识别。

背景技术

伴随着全球信息技术的飞速发展，功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特别大，但是对人们有用的数据往往只占全部数据的一小部分。这种某类样本数据数量明显少于其他类样本的数据集被称作不平衡数据集，不平衡数据集的分类问题大量存在于现实生活之中。例如，检测公民的信用申请是否存在欺诈，一般情况下欺诈申请要远少于合法申请；利用诊疗数据诊断病人的疾病，如心脏病患者要远少于健康的人。在这些实际应用中，人们更关心的是数据集中的少数类，即样本数目远少于其他类样本的一类样本，而且这些少数类的错分代价往往非常大，因此需要有效提高少数类的分类精度。

近几年来，不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注，国内外学者对不平衡数据的研究主要有两个方面：一是基于数据采样的方法，其主要目的是通过对数据进行预处理降低数据的不平衡度，如模拟增加少数类样本的少数类样本合成过采样技术SMOTE；二是基于分类算法的方法，Veropoulos等人提出的不同惩罚参数的支持向量机Biased-SVM，为各类样本指派不同的惩罚参数，从一定程度上抵消了数据不平衡度对支持向量机的影响。

面对不平衡数据集的学习问题，研究的困难主要来自于不平衡数据本身的特点：不平衡数据集中的少数类样本不足，样本的分布并不能很好的反映整个类的实际分布；多数类通常会夹杂噪声数据，使得两类样本往往会出现不同程度的重叠。此外，传统的机器学习领域的分类方法，在直接应用于不平衡数据时，如果没有考虑数据的不平衡性，容易将少数类样本错分为多数类，尽管整体的分类精度比较高，但对少数类的分类精度非常低。

发明内容

本发明的目的在于针对上述已有技术的不足，提出一种基于不平衡分类指标与集成学习的不平衡数据分类方法，以提高分类器对少数类的分类精度。

为实现上述目的，本发明技术方案包括如下步骤：

(1)输入一个包含两类数据的不平衡数据集，并将样本较多的类记作多数类，样本较少的类记作少数类，从该不平衡数据集中随机选取十分之九的样本作为训练样本，将剩余的样本作为测试样本，并设定最大迭代次数T；

(2)设训练样本初始权重服从均匀分布，即每一个(x_i,y_i)∈S，其中i＝1,2,...,N，t＝1，N表示训练样本的个数，S表示训练集，x_i表示第i个训练样本，y_i表示第i个训练样本的类别标识，D_t表示第t轮中训练样本的样本权重；

(3)根据第t轮中训练样本的样本权重D_t选取第t轮生成的弱分类器的训练样本，用选取的训练样本对支持向量机进行训练，获得第t轮生成的弱分类器h_t，用弱分类器h_t对所有训练样本进行分类，得到训练样本的预测类标h_t(x_i)，其中i＝1,2,...,N；

(4)计算第t轮生成的弱分类器h_t在训练集上的错误率：其中，D_t(x_i,y_i)表示第t轮中训练样本x_i的样本权重，h_t(x_i)表示第t轮训练后生成的弱分类器h_t对第i个训练样本x_i的预测类标，y_i表示第i个训练样本的类别标识；

(5)将错误率ε_t与设定的阈值k＝0.5进行比较：若ε_t≥k，令最大迭代次数T＝t-1，转到步骤(9)；若ε_t＜k，则执行步骤(6)；

(6)计算不平衡问题的评价指标G，用G优化ε_t，得到优化后的错误率ε_t^*＝ε_t×(1-G)^λ，其中λ是惩罚参数；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510413029.7/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于RFID的食品安全信息追溯监管设备
下一篇：一种书法作品中单字笔画的提取方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于不平衡分类指标与集成学习的不平衡数据分类方法在审

专利文献下载