[发明专利]一种基于几何结构集成的不平衡数据分类系统在审
申请号: | 201811238369.0 | 申请日: | 2018-10-23 |
公开(公告)号: | CN109492096A | 公开(公告)日: | 2019-03-19 |
发明(设计)人: | 王喆;李冬冬;朱宗海;杜文莉 | 申请(专利权)人: | 华东理工大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 200237 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 决策区域 弱分类器 向量形式 样本集合 数据分类系统 几何结构 测试模块 集成策略 输入模块 训练模块 原理设计 超平面 有效地 采集 分工 支撑 转化 | ||
本发明公开了一种基于几何结构集成的不平衡数据分类系统,该系统包括一下模块:输入模块,根据不平衡问题的具体描述,将采集到的样本转化得到向量形式的样本集合,其中,所述向量形式的样本集合包括少数类样本和多数类样本;训练模块,用于将向量形式的样本集合进行训练得到系统的少数类决策区域;测试模块,输入待判别的样本,判断待判别的样本是否在所述系统的少数类决策区域中,得到待判别样本所属的类别。在本发明中,利用支撑超平面原理设计了弱分类器,使得每个弱分类器都能识别不同的多数类样本,且弱分类器之间各有分工;通过其对应决策区域空间的组合,设计的集成策略能够有效的识别出少数类与多数类样本,从而有效地解决不平衡问题。
技术领域
本发明涉及数据处理领域,尤其设计了一种基于样本分布几何结构的集成分类系统处理样本分布不平衡数据分类系统。
背景技术
当今世界正在迎来新一轮科技发展与变革之中,人工智能将是推动其发展变革的重要力量。模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,使得研究对象能完成自动识别的任务。众所周知,线性或向量空间的概念广泛存在于众多科学领域之中,我们在使用“空间”这一概念的同时,就已经与几何建立了密切的联系。在模式识别领域,很多算法也都是建立在空间投影映射上。传统的模式识别技术面临现在许多问题如医疗诊断,金融欺诈等实例时,其中一个突出的挑战来自不平衡数据处理问题。不平衡数据是这样一种数据,在其内部的许多类别中,一些类别的样本数量远小于其余类别的样本数量。
不平衡数据的特点是数据分布呈现不平衡性,其在实际生产生活中广泛存在。造成不平衡问题的原因又很多。比如在医疗统计数据中,由于收集过程中会加入大量的人员数据,导致数据中健康的患者居,而真正病患占比例较小,如果在诊断过程中,将病患诊断为健康人员将会造成严重后果,所以我们在对健康人员和真正病患的分类过程中,我们要尽可能将真正病患分类正确。再者如金融欺诈案件中,往往大部分都是正常案件,而少部分是真正的欺诈案件,如果没有将欺诈案件区分出来会造成严重的后果,所以在分类问题中,我们也要尽力将欺诈案件区分出来。由于现实问题的多样性与复杂性及不断涌现的新问题等,不平衡数据学习遇到相当大的挑战,存在若干关键问题需要进一步研究。
传统的模式分类方法在处理不平衡问题时,通常将多有数据一视同仁,导致决策时更偏向于多数类,然后在不平衡问题中,少数类更值得关注。为了解决不平衡问题,当前方法可以分为三类:第一类是基于采样的方法,在数据预处理环节,通过增加少数类样本或是减少多数类样本,使得样本数量趋向平衡。该类代表算法包括下采样算法(One SideSelection)和少数类上采样算法(Synthetic Minority Oversampling Technique)等;第二类是基于代价敏感的方法,通过增加少数类样本的权重,使得在分类中将其误分的代价提高,从而纠正传统分类器决策时偏向于多数类的情况。该类代表算法主要以Cost-Sensitive Learning为主包括代价敏感局保投影算法(Cost-sensitive localitypreserving projections)、代价敏感主成分分析算法(Cost-sensitive principalcomponent analysis)及代价敏感判别分析算法(Cost-sensitive linear discriminantanalysis)等;第三类是集成方法,设计识别能力弱的分类器,这种分类器称为弱分类器,通过将多个弱分类器集成获得强分类结果,通常与采样结合形成SMOTEBoost,RUSBoost等算法,与代价敏感结合形成AdaCost等算法。
目前,三类方法都存在各自不足。第一类方法较易实现,但是对于增加或删除的样本是否合理需要进一步讨论,通常这样做会破环原始数据的分布。第二类方法需要调整大量参数以获取最优值,此外第二类方法计算代价,为了获取样本代价,需要遍历大多数样本,导致效率降低。第三类集成方法通常也要与采样或是代价敏感相结合,此外弱分类器的集成中,分类器数量难以确定,过少效果不佳,过多则过度复杂。但是集成学习,能供借鉴各种方法的优点,所以能获取更好的结果。若能设计出结构简洁,训练虚度快,且能很好矫正偏差的集成方法,将会进一步提高集成学习技术在不平衡问题上的处理能力。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东理工大学,未经华东理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811238369.0/2.html,转载请声明来源钻瓜专利网。