[发明专利]基于欧式距离的自适应集成的不平衡数据分类方法在审
申请号: | 201910832525.4 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110533116A | 公开(公告)日: | 2019-12-03 |
发明(设计)人: | 王宾;陈东;张强;魏小鹏;周昌军 | 申请(专利权)人: | 大连大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 21235 大连智高专利事务所(特殊普通合伙) | 代理人: | 毕进<国际申请>=<国际公布>=<进入国 |
地址: | 116622 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基础分类 算法 动态选择 集成规则 平衡子集 数据分类 自适应 分类能力 分类样本 欧式距离 输出结果 样本分类 预测结果 周围区域 子分类器 分类器 预选择 子集 样本 多样性 筛选 输出 分类 评估 平衡 | ||
本发明公开了基于欧式距离的自适应集成的不平衡数据分类方法,首先通过随机平衡方法得到若干个多样性的平衡子集,然后在每个平衡子集上建立得到多个基础分类器。在动态选择算法之前加入了分类器预选择算法。在得到筛选的基础分类器后,提出一种新的动态选择算法,通过评估待分类样本周围区域内的样本分类器情况,当正确分类属于范围内的少数类样本越多则能力越强。最后采用一种基于距离的自适应集成规则将选择出的基础分类器得到的预测结果输出。该方法能够得到在生成多样的子集上建立基础分类器,同时提出动态选择算法能够挑选出分类能力最强的子分类器,最后提出的集成规则能够提供更好的输出结果,最终有效提高了不平衡数据分类精度。
技术领域
本发明属于人工智能领域,具体说是一种基于欧式距离的自适应集成的不平衡数据分类方法。
背景技术
不平衡数据是指训练样本中一个类别的样本或多个类别的样本与其他类别样本数量相差很大的情况。根据研究报告,类别不平衡问题发生在现实世界各种各样的领域中,如面部年龄估计,检测卫星图像漏油,异常检测,识别欺诈性信用卡交易,软件缺陷预测和图像标注等。因此,研究人员非常重视数据不平衡问题并举办了几次专题研讨会和会议,如人工智能促进协会(AAAI)2000,国际机器学习会议(ICML)2003,以及2004年知识发现和数据挖掘(SIGKDD)探索ACM特别兴趣小组。
对于二分类不平衡问题,学习样本通常分为多数类和少数类。一般来说,人们对少数类样本的关注程度要超过多数类样本,比如将信用卡欺诈交易识别成正常交易的代价要比信用卡正常交易识别成欺诈交易代价高得多,因为后者可以通过工作人员联系信用卡持有人确认交易是否由本人发起的。但是少数类样本的数量远远低于多数类样本数量这种情况带过来的后果可能非常严重。由于大多数传统的分类算法如决策树,k-最近邻和RIPPER倾向于生成最大化整体分类准确性的模型,少数类样本是通常被忽略的。例如,对于只有1%的样本属于少数类的数据集,即使模型将所有样本分类为多数类,它仍然可以达到99%的总体准确度,用这种高准确度的分类器会将想要准确分类的少数类错误分类。
目前应用于机器学习和数据挖掘领域的集成学习方法在不平衡数据分类方面的实际应用越来越多被提出来,但大多数该类算法只能有限提高不平衡数据分类的预测精度,每个基础分类器都是局部区域的专家,没有考虑到每个基础分类器对于不同的测试样本的分类能力是不同的,将这些性能较差的基础分类器参与最终集成会影响集成模型的泛化能力,并且产生用于基础分类器学习的子集应该是多样的,保证基础分类器的多样性,同时大多数集成学习的集成规则都是通过多数类投票确定的,未考虑训练样本和测试样本之间的关系,即时优化后的基础分类器给出的预测结果也得不到更进一步的提高。
发明内容
为解决集成学习中子分类多样性不足、未考虑性能较差基础分类器和集成规则设计的问题,本申请提出一种基于欧式距离的自适应集成的不平衡数据分类方法,提高不平衡数据分类精度。
为实现上述目的,本发明的技术方案为:基于欧式距离的自适应集成的不平衡数据分类方法,具体包括如下步骤:
步骤一、数据预处理,得到多样性平衡子集;
步骤二、在m个平衡子集上采用同样的分类学习算法得到m个同质分类器构建候选分类器池;
步骤三、在候选分类器池中预选择基础分类器,将不具有少数类样本能力的分类器删除;
步骤四、采用动态选择算法从步骤三筛选得到的分类器池中将测试样本周围区域样本分类能力强的候选子分类器挑选出来构成基础分类器集合;
步骤五、采用一种基于距离的自适应集成规则将选择出的基础分类器集合对于测试样本的预测结果输出。
进一步的,在步骤一中,对数据预处理:包括对训练集随机平衡获得的平衡子集,验证集以及测试集;具体步骤为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连大学,未经大连大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910832525.4/2.html,转载请声明来源钻瓜专利网。