[发明专利]一种基于单边动态下采样的不平衡数据分类系统在审
申请号: | 201610108097.7 | 申请日: | 2016-02-28 |
公开(公告)号: | CN105787046A | 公开(公告)日: | 2016-07-20 |
发明(设计)人: | 王喆;李冬冬;范奇;高大启 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 单边 动态 采样 不平衡 数据 分类 系统 | ||
技术领域
本发明涉及模式识别领域,尤其涉及一种基于单边动态下采样的不平衡数据分类 方法与系统。
背景技术
当今是一个数据爆炸的时代,数据量己从TB级别上升到PB乃至EB级别,面对海量 的数据,如何进行数据挖掘,从中获取有用的信息就显得尤为重要。数据挖掘有很多研究方 向,分类问题是其中一个重要的研究分支。分类(Classification)是指从数据中选出已经 分好类的训练集,在该训练集上运用分类技术,进行分析和学习,发现隐藏在数据内的规 律,建立分类模型,从而对未知的测试样本进行分类预测。目前对传统的分类问题已经有很 多成熟的算法,如K近邻算法、决策树算法、人工神经网络算法、贝叶斯算法、支持向量机算 法等,它们在数据挖掘的很多领域中都有应用,而且也都获得了很好的分类效果。
虽然传统的分类算法可以取得较好的分类效果,但是它们大都是建立在数据集分 布均衡的前提下的,即数据集中各类样本的数目大体一致。可是,在各个学科的应用领域 中,更常见的是不平衡的数据集。对于二类问题来说,一般都是一个类别的样本数目比另一 个类别的样本数目大很多,其中样本数目少的类称为正类(Positive),样本数目多的类称 为负类(Negative)。比如在金融欺诈检测中,一般而言,大多数客户的交易行为都是正常 的,只有极个别客户可能是潜在的欺诈行为,可能10万笔交易中才存在l笔欺诈行为;此外, 在医疗诊断、网络入侵检测、反垃圾邮件、石油勘探等领域,也都存在着数据集不平衡的问 题。在这些领域中,有些数据不平衡问题是固有的,因为本身正类样本发生的概率就低。还 有一部分是因为正类样本需要来自实验验证,而负类样本不需要实验验证,因此获取负类 样本成本低,正类样本成本高,从而导致数据集中出现负类远远多于正类的情况。
由于传统分类算法总是以分类模型的总平均分类精度最大为训练目标,不考虑每 个类的相对分布情况,当用传统的分类器解决不平衡数据分类问题时,往往出现分类器性 能大幅度下降的现象,得到的分类器倾向于负类,本属于正类的样本往往被错分到负类中。 这样的分类器在正类上的效很差。但实际问题却常要求正类的检测率足够高,因为正类样 本通常比负类样本重要得多。同样是金融欺诈检测问题,传统的分类器很容易将欺诈行为 也分类为正常行为,但是把欺诈行为当作正常行为对银行造成的损失的代价往往比把正常 行为误当作欺诈行为的代价高得多。而在医疗诊断上,如果把病人误诊为正常人,耽误了最 佳治疗时间,造成的损失更是不可估量。所以,对不平衡数据的正确分类成了亟待解决的问 题。构造一个能够有效处理不平衡问题的分类系统将能为工业生产和社会经济带来较大的 经济效益。
目前在处理不平衡数据方面,已经有一些基于数据层面的处理方法,如随机下采 样(RandomUnder-sampling)、单边样本选择(One-SidedSelection)、随机上采样(Random Over-sampling)等。然而,这些处理方法都是独立于训练算法本身的,即训练算法和这些数 据处理方法之间是独立的。也就是说,被数据处理方法处理过的数据集能够被多个不同的 训练算法使用。但是在算法训练过程中,被处理过的样本是保持不变的。对于下采样方法来 说,被移除的样本在分类器训练阶段将再也不会被用于训练,这导致了样本信息的丢失,从 而影响分类器性能。为了克服下采样方法的这种缺陷,我们提出了一种基于单边下采样的 不平衡数据分类系统。在训练阶段,该系统能将所有样本考虑进来。在每一次迭代中,系统 动态地对负类样本进行下采样,从而得到平衡的训练样本。
发明内容
针对现有基于数据下采样的分类技术在处理不平衡数据时无法将下采样与分类 器训练相结合,无法避免下采样之后样本数据信息丢失,本发明所要解决的技术问题是提 供了一种基于单边动态下采样方法,采用样本的判别距离(DiscriminantDistance)来实 现负类样本的下采样,采用不反馈神经网络来训练分类模型,采用梯度下降法来优化算法 模型。将单边动态下采样与不反馈神经网络相结合,从而提出一种基于单边动态下采样的 不平衡数据分类系统。该系统能够有效地处理不平衡数据的分类问题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610108097.7/2.html,转载请声明来源钻瓜专利网。