[发明专利]一种基于非平衡数据分布的多异质基分类器融合分类方法无效
申请号: | 201210460366.8 | 申请日: | 2012-11-15 |
公开(公告)号: | CN102945280A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 翟云;江澎 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100089 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 平衡 数据 分布 多异质基 分类 融合 方法 | ||
技术领域
本发明所涉及数据挖掘的技术领域,特别是涉及一种基于非平衡数据分布的多异质基分类器融合分类方法。
背景技术
近年来,随着数据挖掘研究的日益深入与应用的不断扩展,越来越多的研究者愈发感受到在一些复杂数据环境下,传统数据挖掘技术已难以适应新形势的不断变化。其中,针对非平衡数据分布环境的数据挖掘方法,逐渐成为该领域中的热点问题。自Nathalie Japkowicz全面提出面向非平衡数据集的学习后,基于非平衡数据分布环境的数据分类问题首次成了一个专门的研究主题和未来的研究重点之一。传统的分类方法着眼于提高数据集整体分类精度,倾向偏置多数类样本,忽略了少数类样本的精度,故已不适合非平衡数据的分类问题。
多分类器融合方法从系统论角度出发,不但融合多种重采样技术,而且能充分利用各基分类器的结果,故而能达到较好的精度,具有较稳定的鲁棒性。融合分类器不易出现过学习,同时具有较强的泛化能力。融合分类器本身具有的这种独特优势使其成为近年来数据挖掘领域中的研究热点。如在人脸识别及表情识别领域,不同分类器可以利用不同特征,采用某种组合策略,从而将多个分类器融合,使其优势互补,从而提高整体分类的准确率和鲁棒性。
2000年Thomas G.Dietterich从统计因素、计算因素和表示因素等三个方面深入分析了融合学习的有效性。1996年和1995年Breiman,Freund分别介绍和讨论了Bagging和Boosting这两种最典型的基分类器融合方法。Freund进而提出了AdaBoost算法,该算法可以非常容易地应用到实际问题中。但这些方法仅适用于正常态数据集中,并不适应于非平衡数据集,就当前的研究进展来看,适用于非平衡数据分布环境的基分类器融合方法仍为鲜见,尤其是在算法的多样性与分类准确度尤其是在提高少数类样本精度方面仍面临着难以突破的瓶颈问题。
发明内容
本发明的目的在于克服现有技术的不足,提出了一种基于非平衡数据分布的多异质基分类器融合分类方法。
为了实现上述发明目的,采用的技术方案如下:
一种基于非平衡数据分布的多异质基分类器融合分类方法,包括:
决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;
利用基于差异采样率重采样算法对Undersample专家和Oversample专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;
计算各基分类器的分类错误率,进而计算出对应的权重;
由Undersample专家和Oversample专家统计各自结果;
融和最后预测结果。
所述基于差异采样率重采样算法对样本进行预处理的过程(以过采样过程为例),具体为:
A、计算正类样本数量minsize和负类样本数量maxsize;
B、计算maxsize与minsize的差值subsize;
C、计算采样因子samfactor=subsize/n,其中n为基分类器数量;
D、计算各基分类器的样本数量minsamplesizei=minsize+samfasctor·oversamratei,其中,oversamratei为第i个基分类器的过采样率;
所述各基分类器分类错误率和对应权重的计算方法为:计算基分类器ht:X →{-1,1},该基分类器在分布Dt上的误差为:那么该基分类器的权重:
所述Undersample专家和Oversample专家统计结果的过程具体为:对于10个样本子集,仅分别独立保留最后一次迭代时生成的基分类器ht(x),在Undersample生成的10个样本子集(Oversample生成的10个样本子集)上皆生成相应的基分类器hi(x),i=1,2...10;对在上的10个基分类器进行10交叉验证,分别计算各自错误率εi,令该基分类器的权重为i=1,2...10;Undersample专家和Oversample专家最后预测结果分别为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于翟云;江澎,未经翟云;江澎许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210460366.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置