[发明专利]基于提升度决策树及改进SMOTE对不平衡数据的分类方法在审
申请号: | 202010888665.6 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112070136A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 周红芳;张家炜 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王丹 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 提升 决策树 改进 smote 不平衡 数据 分类 方法 | ||
1.基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,具体按照以下步骤实施:
步骤1、对数据进行预处理;
步骤2、将经过数据预处理后的数据集使用改进SMOTE算法进行处理,将不平衡数据集平衡化;
步骤3、将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据;
步骤4、将训练数据使用基于提升度的决策树算法进行训练,建立决策树模型;
步骤5、使用建立好的决策树模型对测试数据进行测试,得到输出结果。
2.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,所述步骤1具体为:
数据集为Data_set={d1,d2,d3,...dp},o=1,2,3...p
包含类别C={c1,c2,c3,...cm},i=1,2,3...m,特征F={f1,f2,f3,...fn},j=1,2,3,...n;将该数据集中的缺失特征值使用众数进行补全,将连续特征值使用K-Means算法离散化,将字符串类型的特征值转换为标称型,将字符串型的类别值转换为标称数值型。
3.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法,其特征在于,所述步骤2具体为:
步骤2.1、首先按照类别标签将初始数据集Data_set分为不同的数据子集Di;
步骤2.2、对于每个类别ci,计算每个样本do与该类别中其他样本du之间的欧氏距离dist(do,du),并求和取平均值作为该样本do到其余样本的平均距离;将计算得到的每个样本do与该类别中其他样本间平均欧式距离由大到小进行排序;将排序后的平均欧式距离序列中平均距离排名在前百分之十的样本作为离群点样本进行删除;对每个类别ci都重复上述操作,直到所有类别都被遍历;
欧式距离计算公式如下:
步骤2.3、统计目前每个类别ci的样本数量number(ci)以及所有类别的平均样本数
步骤2.4、在每个类别ci中,如果该类别中的样本数量number(ci)少于类别平均样本数则在该类别ci中添加新的样本dnew;
求解中心点d_middle;
计算该类别样本数number(ci)与平均类别样本数的差值w,在该类别ci中添加w个新样本;
添加新样本的公式如下:
dnew=d_middle+rand(0,1)×(do-d_middle) (2)
如果该类别中的样本数number(ci)多于类别平均样本数则计算该类别样本数number(ci)与平均类别样本数的差值w,从该类别样本中随机删除w个样本;
删除样本的公式如下:
delete(random(1,number(ci))) (3)
如果该类别中的样本数量number(ci)与类别平均样本数相等,则判断下一个类别。
步骤2.5、重复步骤2.4直到每个类别都被遍历,将生成的新样本加入到数据集Data_set中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010888665.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种服装硅胶热转印设备
- 下一篇:一种车载式空调