[发明专利]基于特征权重的决策树特征选择方法在审
申请号: | 202010109760.1 | 申请日: | 2020-02-22 |
公开(公告)号: | CN111488903A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 周红芳;张家炜 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张皎 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 权重 决策树 选择 方法 | ||
1.基于特征权重的决策树特征选择算法,其特征在于,具体按照以下步骤实施:
步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM},样本集S={s1,s2,...sN},类别C={c1,c2,...cK};
步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类算法进行离散化处理,非连续特征直接进入下一步;
步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;
步骤4、使用经过步骤3过滤得到的特征集构造决策树。
2.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤1具体包括:对于数据集中的缺失值使用该列特征的所有特征值的平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值转换为离散型的数字。
3.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2中对连续特征使用K-Means聚类算法进行离散化处理具体按照以下步骤实施:
步骤2.1、使用轮廓系数法确定每个连续特征的聚类簇数;
步骤2.2、依次将每个样本中的每个连续特征的值按照其与k个聚类中心的欧式距离的远近划分到不同的簇中,每个簇对应一个离散特征值;
步骤2.3、重复以上的过程将所有连续特征都转换为离散型特征。
4.根据权利要求3所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤2.1具体为:假设聚类簇数为k,设k从2到10,在数据集中随机选择一个样本i,计算与同一簇中其他样本的欧式距离的平均值a(i),欧式距离计算公式如下:
同时计算样本i与其他簇中每个样本的距离的平均值b(i),轮廓系数计算公式如下:
将轮廓系数值最大时对应的k值作为该连续特征的聚类簇数。
5.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤3具体按照以下步骤实施:
步骤3.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本,计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤3.2、将步骤3.1重复M次,计算每个特征的特征权重值W(A),公式如下:
对于离散型特征值,diff(A,Ix,Iy)公式如下:
步骤3.3、将经过步骤3.2计算得到的每个特征的特征权重值从大到小进行排序,形成特征权重向量;
步骤3.4、若特征集中特征个数为奇数,将特征权重向量中的中位数作为特征权重阈值β,若特征集中特征个数为偶数,将特征权重向量的最中间两个数的平均值作为特征权重阈值β;
步骤3.5、使用步骤3.4得到的特征权重阈值β对特征集进行过滤,将特征集中特征权重值小于β的特征进行删除,保留特征权重值大于等于β的特征。
6.根据权利要求1所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4具体按照以下步骤实施:
步骤4.1、构造决策树的每一层时计算每个特征的特征权重值;
步骤4.2、选择特征权重值最大的特征作为划分特征,并将该特征从特征集中删除,进行递归构造决策树,直到达到构造决策树的终止条件,形成一个决策树。
7.根据权利要求6所述的基于特征权重的决策树特征选择算法,其特征在于:所述步骤4.1具体按照以下步骤实施:
步骤4.1.1、在数据集中随机选择一个样本R,计算R与同类别样本中每个样本间的欧氏距离,选择k个与R距离最短的同类样本作为最近邻样本,计算每个与R不同类别的样本中每个样本间的欧式距离,分别在每个不同类样本集中选择k个与R距离最近的样本作为不同类最近邻;
步骤4.1.2、将步骤4.1.1重复M次,计算每个特征的特征权重值W(A),公式如下:
对于离散型特征值,diff(A,Ix,Iy)公式如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010109760.1/1.html,转载请声明来源钻瓜专利网。