[发明专利]一种不平衡数据分类方法在审
申请号: | 201410473220.6 | 申请日: | 2014-09-17 |
公开(公告)号: | CN104239516A | 公开(公告)日: | 2014-12-24 |
发明(设计)人: | 柏文阳;姚玉姝;周嵩 | 申请(专利权)人: | 南京大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 江苏圣典律师事务所 32237 | 代理人: | 胡建华 |
地址: | 210023 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 不平衡 数据 分类 方法 | ||
技术领域
本发明涉及一种不平衡数据分类方法,属于计算机数据分析与挖掘领域,具体说是一种数据分类算法。
背景技术
不平衡数据集,即各个类拥有的样本数量之间有较大差异的数据集。在不平衡数据集的二分类中,通常把样本数量少的类称为正类(positive class),对应的,样本数量多的类称为负类(negative class)。数据不平衡性在当前的应用中十分常见,如医疗诊断、入侵检测、预防诈骗、从卫星图像分辨事物等。分类时,正类的分类正确率是我们主要在意的问题。例如在疾病诊断中,健康者被误诊的情况会在复查时得到解决,然而癌症患者被误判为正常则可能会引起无法挽回的结果。
对于不平衡数据集的分类问题,近年来许多学者提出了各种解决方法,主要可以归为数据和算法两个层面的处理。数据层面处理是通过对数据重新抽取采样达到降低数据不平衡度的目的,方法主要包括欠采样(undersampling)、过采样(oversampling)以及两种方法的结合。无规则的欠采样有可能会丢失重要样本信息;过采样可能会引起过学习的问题,还会增加训练时间;算法层面的处理方法大致集中在三类:代价敏感学习、支持向量机(Support Vector Machine,SVM)以及组合的方法。代价敏感学习根据情况调整惩罚参数,在不平衡分类中,对正类错分设置较大的惩罚参数可以提高分类器在正类上的分类效果,这类方法的效果依赖于设置的参数;支持向量机相对于其他分类方法来说,对于数据不平衡性的敏感度比较低,如在文献1:Japkowicz N,Stephen S.The class imbalance problem:A systematic study[J].Intelligent data analysis,2002,6(5):429-449.中,Japkowicz等人通过实验比较了数据不平衡性对不同分类方法,包括决策树C4.5、BP神经网络和支持向量机等的影响,结果表明支持向量机对数据不平衡行相对不敏感,因此在这个问题上,出现了很多基于支持向量机的方法;组合方法就是将几种分类器结合起来,提高分类效果,组合方法需要对多种分类器之间的差异和偏向性进行折中,而且容易引起过学习的问题。
支持向量机(Support Vector Machine)是90年代中期由Vapnik等人提出的一种基于统计学习理论的机器学习方法,通过寻求最小化结构风险来提高学习机泛化的能力。在给定的数据集上,支持向量机能够训练出一个超平面,这个超平面可以把样本正确地分成两类,并且让两个类之间的间隔最大。
主动学习算法最早由Lewis等人提出,主要思想是:样本由少量标记样本和大量未标记样本组成,先对标记样本训练,然后通过某种规则,从未标记样本中选择一个(或多个)样本,由专家标记之后放到标记类中,一起作为新一轮的训练集。这样重复地训练、选择、添加直到满足停止条件。
在基于SVM的各种分类方法中,Greg Schohn等人将主动学习的思想和支持向量机相结合,用主动学习的方法提高训练数据的质,减少训练数据的量,每次迭代过程中选择离当前SVM的分类超平面最近的数据点加入训练集。经过多次迭代得到较优的子集,支持向量机在挑选的子集上训练建模,得到的模型效果比在全局数据上训练的模型更好,参见文献2:Greg Schohn,David Cohn.Less is More:Active Learning with Support Vector Machines[C]//ICML’00 Proceedings of the Seventeenth International Conference on Machine Learning.;Seyda Ertekin等人根据距离分类平面最近的一个范围内数据的不平衡度能显著降低,把主动学习的支持向量机应用到不平衡数据集上,在迭代过程中选择有效样本时采用随机抽样的方法提高分类器训练效率,参见文献3:Ertekin S,Huang J,Bottou L,et al.Learning on the border:active learning in imbalanced data classification[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management.ACM,2007:127-136.。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410473220.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据库容灾系统和数据库容灾方法
- 下一篇:婴儿床底部滚轮安装结构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置