[发明专利]基于提升度决策树及改进SMOTE对不平衡数据的分类方法在审
申请号: | 202010888665.6 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112070136A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 周红芳;张家炜 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 提升 决策树 改进 smote 不平衡 数据 分类 方法 | ||
本发明公开了一种基于提升度决策树及改进SMOTE对不平衡数据的分类方法,具体按照以下步骤实施:对数据进行预处理;将经过数据预处理后的数据集使用改进SMOTE算法进行处理,将不平衡数据集平衡化;将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据;将训练数据使用基于提升度的决策树算法进行训练,建立决策树模型;使用建立好的决策树模型对测试数据进行测试,得到输出结果。分类准确率高,构成过程能够很好地解释,并且构建过程简单快速,冗余属性不会影响算法的分类准确率,对于噪声数据具有很好的鲁棒性。
技术领域
本发明属于数据挖掘方法技术领域,涉及基于提升度决策树及改进SMOTE对不平衡数据的分类方法。
背景技术
随着信息技术的飞速发展,以及近年来大数据和5G技术的普及,越来越多的领域产生海量的数据信息。在这些海量信息中包含大量无关、冗余的内容。同时在一些领域的数据中,会出现大量的不平衡分类的数据,使用这些数据进行预测或分类,会造成测试数据的分类结果不准确问题。
针对上述第一个问题:海量数据中包含大量无关、冗余的内容。使用特征选择对其进行处理,将数据中无关或冗余的特征以及对于分类作用不大的特征删除,保留与类别相关性大以及特征之间冗余性低的特征。这样就会提高机器学习算法的分类准确率,降低算法的运行时间,提高效率。
针对上述第二个问题:一些领域数据中每种类别中的样本数不平衡。通过使用不平衡数据处理方法,在数据预处理阶段向少数类中添加样本或在多数类中只选择部分样本。这样就会形成一个平衡数据集。
特征选择是数据挖掘领域中的一种重要方法,经常用在数据预处理、构建模型阶段。根据特征选择方法与后续分类器的关系,目前主要的特征选择方法有过滤式、封装式、嵌入式特征选择。过滤式特征选择的过程独立于数据分类的过程,主要优点是计算速度快、复杂度低,缺点是难以确定由过滤方法选择的属性是否能使特定的分类器的分类精度最大。封装式特征选择算法将属性选择的过程放到机器学习算法过程中,通过后面的学习算法的结果选择最合适的特征子集。该方法将特征选择和分类的决策进行结合,因此分类准确率高,缺点是计算复杂度高。嵌入式特征选择方法将特征选择过程嵌入到机器学习算法中,构建训练模型的过程就是特征选择的过程。
发明内容
本发明的目的是提供基于提升度决策树及改进SMOTE对不平衡数据的分类方法,解决了现有技术中存在的大量的不平衡分类的数据以及测试数据的分类结果不准确的问题。
本发明所采用的技术方案是,基于提升度决策树及改进SMOTE对不平衡数据的分类方法,具体按照以下步骤实施:
步骤1、对数据进行预处理;
步骤2、将经过数据预处理后的数据集使用改进SMOTE算法进行处理,将不平衡数据集平衡化;
步骤3、将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据;
步骤4、将训练数据使用基于提升度的决策树算法进行训练,建立决策树模型;
步骤5、使用建立好的决策树模型对测试数据进行测试,得到输出结果。
步骤1具体为:
数据集为Data_set={d1,d2,d3,...dp},o=1,2,3...p,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010888665.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服装硅胶热转印设备
- 下一篇:一种车载式空调