[发明专利]基于提升度决策树及改进SMOTE对不平衡数据的分类方法在审

申请号：	202010888665.6	申请日：	2020-08-28
公开（公告）号：	CN112070136A	公开（公告）日：	2020-12-11
发明（设计）人：	周红芳;张家炜	申请（专利权）人：	西安理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西安弘理专利事务所 61214	代理人：	王丹
地址：	710048 陕***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于提升决策树改进 smote 不平衡数据分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于提升度决策树及改进SMOTE对不平衡数据的分类方法，其特征在于，具体按照以下步骤实施：

步骤1、对数据进行预处理；

步骤2、将经过数据预处理后的数据集使用改进SMOTE算法进行处理，将不平衡数据集平衡化；

步骤3、将经过平衡后的数据集使用十折交叉验证方法划分为训练数据和测试数据；

步骤4、将训练数据使用基于提升度的决策树算法进行训练，建立决策树模型；

步骤5、使用建立好的决策树模型对测试数据进行测试，得到输出结果。

2.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法，其特征在于，所述步骤1具体为：

数据集为Data_set＝{d₁,d₂,d₃,...d_p},o＝1,2,3...p

包含类别C＝{c₁,c₂,c₃,...c_m},i＝1,2,3...m，特征F＝{f₁,f₂,f₃,...f_n},j＝1,2,3,...n；将该数据集中的缺失特征值使用众数进行补全，将连续特征值使用K-Means算法离散化，将字符串类型的特征值转换为标称型，将字符串型的类别值转换为标称数值型。

3.根据权利要求1所述的基于提升度决策树及改进SMOTE对不平衡数据的分类方法，其特征在于，所述步骤2具体为：

步骤2.1、首先按照类别标签将初始数据集Data_set分为不同的数据子集D_i；

步骤2.2、对于每个类别c_i，计算每个样本d_o与该类别中其他样本d_u之间的欧氏距离dist(d_o,d_u)，并求和取平均值作为该样本d_o到其余样本的平均距离；将计算得到的每个样本d_o与该类别中其他样本间平均欧式距离由大到小进行排序；将排序后的平均欧式距离序列中平均距离排名在前百分之十的样本作为离群点样本进行删除；对每个类别c_i都重复上述操作，直到所有类别都被遍历；

欧式距离计算公式如下：

步骤2.3、统计目前每个类别c_i的样本数量number(c_i)以及所有类别的平均样本数

步骤2.4、在每个类别c_i中，如果该类别中的样本数量number(c_i)少于类别平均样本数则在该类别c_i中添加新的样本dnew；

求解中心点d_middle；

计算该类别样本数number(c_i)与平均类别样本数的差值w，在该类别c_i中添加w个新样本；

添加新样本的公式如下：

dnew＝d_middle+rand(0,1)×(d_o-d_middle) (2)

如果该类别中的样本数number(c_i)多于类别平均样本数则计算该类别样本数number(c_i)与平均类别样本数的差值w，从该类别样本中随机删除w个样本；

删除样本的公式如下：

delete(random(1,number(c_i))) (3)

如果该类别中的样本数量number(c_i)与类别平均样本数相等，则判断下一个类别。

步骤2.5、重复步骤2.4直到每个类别都被遍历，将生成的新样本加入到数据集Data_set中。