[发明专利]基于融合Boost模型的不平衡数据采样方法在审
申请号: | 201710781806.2 | 申请日: | 2017-09-02 |
公开(公告)号: | CN107609074A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 宋彬;王丹;陈思佳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心61205 | 代理人: | 田文英,王品华 |
地址: | 710071 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 融合 boost 模型 不平衡 数据 采样 方法 | ||
技术领域
本发明属于数据处理领域,更进一步涉及非平衡数据采样技术领域中的一种融合集成模型的不平衡数据采样方法。本发明针对不平衡数据样本集Germam数据集,进行融合Boost模型的自适应采样,实现大数据领域中对不平衡数据的处理,新生成平衡的数据样本集。
背景技术
随着现代信息技术的飞速发展,功能强大的计算机、数据收集设备和存储设备为人们进行事务管理、信息检索和数据分析提供了大量的数据信息。尽管获得的数据量特别大,但是有用的数据仅占全部数据的一小部分。某类样本数据数量明显少于其他类样本的数据集被称作不平衡数据集,不平衡数据集在研究与实际工作中往往难以避免。由于不平衡数据的类别样本比例悬殊性,高维度数据的畸变性,导致了可用类别的信息在样本结构和特征维度两个层面被大类别信息掩盖,使得之后的数据挖掘往往难以学习到目标信息。不平衡数据集的分类问题越来越受到数据挖掘和机器学习研究领域的关注。
天津大学在其申请的专利文献“一种基于自适应升采样的不平衡数据集分类方法”(专利申请号:201610331709.9,公开号:CN105975992A)中提出一种基于自适应升采样的不平衡数据集分类方法。该方法包括计算不平衡数据集的不平衡率和需要新生成的正样本数,将新生成的正样本点加入到原有的不平衡训练集中,使正负样本数目相同,对新生成的平衡训练集运用Adaboost算法进行训练,迭代T次后得到最终的分类模型。该方法存在的不足之处是,容易将少数类样本错分为多数类,对少数类的分类精度较低,特异性较差。
李克文、杨磊在其发表的论文“基于RSBoost算法的不平衡数据分类方法”(计算机科学,2015,TP181)中提出了一种基于RSBoost模型的不平衡数据分类方法。该方法将SMOTE采样和Boost模型相结合进行不平衡数据集分类,首先使用SMOTE模型增加少数类的数量,在保持数据分布均匀的情况下对整数数据集进行随机欠采样,再与Adaboost模型相结合对数据进行分类,将采样和分类作为串行的步骤,用SMOTE模型增加少数类的数量,再随机采样减少数据集的规模,在增加模型识别精度的同时保证模型训练速度。但是,该方法仍然存在的不足之处是,此方法只是SMOTE模型和Boost模型的拼接,没有从根本上解决不平衡数据采样中存在的盲目性和重复性问题。
胡小生,温菊屏在其发表的论文“动态平衡采样的不平衡数据集成分类方法”(智能系统学报,2016,TP181)中提出了一种动态平衡采样的不平衡数据集成分类方法。该方法将动态平衡数据采样与Boosting模型相结合的不平衡数据集成分类方法,将SMOTE模型嵌入到Boosting模型学习的每一次迭代中,然后进行相应子模型的训练,最后将所有子模型组合投票进行。实验结果表明,该方法能够将采样融合到模型训练中,提高了模型的分类准确度。但是,该方法仍然存在的不足之处是,并没有涉及到对于采样技术的优化,生成的数据往往难以契合之后的识别要求,需要反复的随机测试,其得到的实际效果并没有提高很多。
发明内容
本发明的目的是针对上述现有技术存在的不足,提出了一种基于融合Boost模型的不平衡数据采样方法。本发明与现有技术中其他对不平衡数据的分类和生成技术相比强化了数据生成的准确度以及适应性,提升了平衡化后数据的性能。
本发明实现的具体步骤包括如下:
(1)生成训练样本集;
(2)训练提升Boost模型:
采用提升Boost模型训练方法,训练提升Boost模型,得到训练好的提升Boost模型;
(3)定义pure1、danger1、noise1数据集;
(4)获取训练样本集的样本点在加权特征空间的位置关系:
(4a)将训练样本集按特征类型归一化;
(4b)采用更新特征权重值与提升Boost模型的F-score评分结合的方法,得到训练样本集的新特征权重值;
(4c)计算训练样本集的样本点在加权特征空间的位置关系;
(5)定义danger2、pure2、noise2数据集;
(6)融合数据集:
将pure1数据集和pure2数据集融合为pure融合集,将danger1数据集和danger2数据集融合为danger融合集,将noise1数据集和noise2数据集融合为noise融合集;
(7)合成新样本点:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710781806.2/2.html,转载请声明来源钻瓜专利网。