[发明专利]基于Stacking和翻转随机降采样分类方法、系统、介质及设备在审
申请号: | 201810132427.5 | 申请日: | 2018-02-08 |
公开(公告)号: | CN108416369A | 公开(公告)日: | 2018-08-17 |
发明(设计)人: | 蒋昌俊;闫春钢;刘关俊;丁志军;张亚英;张裕威;栾文静 | 申请(专利权)人: | 同济大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海光华专利事务所(普通合伙) 31219 | 代理人: | 王华英 |
地址: | 200092 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组件分类 测试样本 分类 集成分类器 原始训练集 训练子集 降采样 翻转 分布特征 分类结果 数据分类 特征组成 不均衡 分类器 区分度 输出 表现 | ||
基于Stacking和翻转随机降采样分类方法、系统、介质及设备,包括:获取原始训练集,将原始训练集划分为数目大于等于两个的不同的训练子集;为每一训练子集建立数目大于等于两个的不同的组件分类器;将每个组件分类器的输出作为特征进行训练,生成集成分类器;获取测试样本,根据每一组件分类器依次分类测试样本得组件分类结果,以组件分类结果为特征组成一新测试样本,以集成分类器分类新测试样本得最终分类结果,本发明解决了现有技术存在的不均衡数据分类精度差、无法识别少数类、分布特征表现有效性低和分类器区分度较低的技术问题。
技术领域
本发明涉及一种不均衡数据分类方法,特别是涉及一种基于Stacking和翻转随机降采样数据分类方法、系统、介质及设备。
背景技术
随着数据挖掘研究中应用范围的不断扩大和解决问题的不断深入,新的挑战和障碍层出不穷,产生了一系列新问题,其中不均衡数据集的分类就是一个被广泛关注的重要问题。不均衡数据分类考虑的是各类样本数目不均衡情况下的分类学习问题,目前很多机器学习算法假定或期望数据集具有均衡类分布或相等的误分类代价,因此,当处理复杂的不均衡数据集时,这些算法不能有效地表现数据的分布特征,从而严重影响分类器的性能。由于二分类问题在生活中最为常见,故本技术只针对二分类问题加以解决。目前解决不均衡数据问题的技术主要对数据层面和算法层面加以解决。数据层面主要技术为重采样技术,算法层面主要技术为分类器融合技术。重采样技术通过增加少数类样本或消除多数类样本来平衡数据。现有的重采样技术对数据重采样后都是让多数类样本个数多于或等于少数类样本个数。但传统的机器学习算法会偏向于预测多数类样本,导致少数类样本无法被准确的分类,影响最终分类器性能;分类器融合技术通过将数据集划分成多个均衡的数据子集,每个数据子集训练一个分类器,然后通过某种组合策略(例如投票)将多个分类器组合。但这无法区分不同分类器的性能强弱,从而达不到最优分类效果。
综上所述,现有技术的不均衡数据分类方法不能有效地表现数据的分布特征,传统的机器学习算法会偏向于预测多数类样本,导致少数类样本无法被准确的分类,影响最终分类器性能,无法区分不同分类器的性能强弱,存在不均衡数据分类精度差、无法识别少数类、分布特征表现有效性低和分类器区分度较低的技术问题。
发明内容
鉴于以上现有技术存在交易安全性低和身份认证准确度不高的技术问题,本发明的目的在于提供一种基于Stacking和翻转随机降采样分类方法、系统、介质及设备,解决现有技术存在的不均衡数据分类精度差、无法识别少数类、分布特征表现有效性低和分类器区分度较低的技术问题,一种基于Stacking和翻转随机降采样分类方法,包括:
获取原始训练集,将原始训练集划分为数目大于等于两个的不同的训练子集;
为每一训练子集建立数目大于等于两个的不同的组件分类器;
将每个组件分类器的输出作为特征进行训练,生成集成分类器;
获取测试样本,根据每一组件分类器依次分类测试样本得组件分类结果,以组件分类结果为特征组成一新测试样本,以集成分类器分类新测试样本得最终分类结果。
于本发明的一实施方式中,获取原始训练集,将原始训练集划分为数目大于等于两个的不同的训练子集具体包括:
接收原始训练集D;
将原始训练集D分为多数类样本集合A和少数类样本集合B;
初始化已抽样次数i及降采样次数k;
判断已抽样次数i是否小于降采样次数k;
若是,则不放回地循环抽取多数类样本集合A中的多数类样本,其中每次抽取多数类样本的个数n为n=ceil(|B|2/|A|);
以n个多数类样本与所有的少数类样本构成一训练子集Di;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于同济大学,未经同济大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810132427.5/2.html,转载请声明来源钻瓜专利网。