[发明专利]基于混合采样与特征选择的高维度不平衡数据分类方法在审
申请号: | 202010524269.5 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111695626A | 公开(公告)日: | 2020-09-22 |
发明(设计)人: | 陈佐;易善涛;杨胜刚;朱桑之;谷浩然;杨捷琳 | 申请(专利权)人: | 湖南湖大金科科技发展有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/10;G06Q40/04 |
代理公司: | 成都行之专利代理事务所(普通合伙) 51220 | 代理人: | 林菲菲 |
地址: | 415000 湖南省常德市鼎城区灌溪镇(常德高新技*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 采样 特征 选择 维度 不平衡 数据 分类 方法 | ||
1.基于混合采样与特征选择的高维度不平衡数据分类方法,其特征在于,包括以下步骤:
步骤S1,获取原始不平衡数据集;
步骤S2,对原始不平衡数据集进行基于多过滤器融合和SVM-RFE的特征选择,得到最优特征子集;
步骤S3,对最优特征子集进行混合采样,得到均衡化分布的数据集;
步骤S4,对均衡化分布的数据集进行训练,利用集成学习策略的两层叠加框架,构建基于多模型融合集成学习的高维不平衡数据分类模型。
2.根据权利要求1所述的基于混合采样与特征选择的高维度不平衡数据分类方法,其特征在于,所述步骤S2具体包括:
步骤S21,对原始不平衡数据集,采用M个不同的过滤器进行特征选择,分别得到M个不同的特征序列;其中,M为大于等于2的正整数;
步骤S22,对M个特征序列中的特征进行打分,根据特征得分降序排列,选取排名前R%*D个特征,得到特征子集;
步骤S23,初始化当前特征集合Snow为特征子集,最优特征子集Sbest为空,最优特征子集AUC值AUCbest为0;
步骤S24,设置每次删除的特征数量比例为p,0<p<1;
步骤S25,根据当前特征集合Snow建立SVM模型,得到AUC值AUCnow;
步骤S26,按照特征权重绝对值降序排列当前特征集合Snow中的特征;
步骤S27,删除当前特征集合Snow中排名靠后的p%个特征,更新当前特征集;
步骤S28,如果更新后的当前特征集Snow的AUC值AUCnow大于最优特征子集Sbest的AUC值AUCbest,则Sbest=Snow;否则不变;
步骤S29,重复执行步骤S25-步骤S28,直到当前特征集合Snow为空,即得到最优特征子集。
3.根据权利要求2所述的基于混合采样与特征选择的高维度不平衡数据分类方法,其特征在于,所述步骤S21采用4个不同的过滤器,分别为过滤器MI、过滤器MIC、过滤器Relief-F和过滤器CS。
4.根据权利要求1-3任一项所述的基于混合采样与特征选择的高维度不平衡数据分类方法,其特征在于,所述步骤S3中的混合采样具体包括:
步骤S31,对最优特征子集中的少数类样本进行过采样合成新样本;
步骤S32,将过采样合成的新样本与最优特征子集中的多数类样本合并,得到新的数据集;
步骤S33,对新的数据集进行欠采样,得到均衡化分布的数据集。
5.根据权利要求4所述的基于混合采样与特征选择的高维度不平衡数据分类方法,其特征在于,所述步骤S31采用K-means SMOTE过采样算法进行过采样处理;所述步骤S33采用RENN算法进行欠采样处理。
6.基于混合采样与特征选择的高维度不平衡数据分类系统,其特征在于,包括数据获取模块、特征选择模块、特征均衡模块和训练模块;
其中,所述数据获取模块用于获取原始不平衡数据集;
所述特征选择模块用于对原始不平衡数据集进行基于多过滤器融合和SVM-RFE的特征选择,得到最优特征子集;
所述特征均衡模块用于对最优特征子集进行混合采样,得到均衡化分布的数据集;
所述训练模块用于对均衡化分布的数据集进行训练,利用集成学习策略的两层叠加框架,构建基于多模型融合集成学习的高维不平衡数据分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南湖大金科科技发展有限公司,未经湖南湖大金科科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010524269.5/1.html,转载请声明来源钻瓜专利网。