[发明专利]基于特征权重的决策树特征选择方法在审
申请号: | 202010109760.1 | 申请日: | 2020-02-22 |
公开(公告)号: | CN111488903A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 周红芳;张家炜 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 张皎 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 权重 决策树 选择 方法 | ||
本发明公开了一种基于特征权重的决策树特征选择算法,具体按照以下步骤实施:步骤1、对数据集进行预处理,得到预处理数据集;步骤2、判断数据集中是否有连续特征:对连续特征使用K‑Means聚类算法进行离散化处理,非连续特征直接进入下一步;步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的特征集进行过滤,保留在样本分类时与类别相关性高的特征;步骤4、使用经过步骤3过滤得到的特征集构造决策树。通过本发明的方法能够提供特征选择分类准确率,提高F1值。
技术领域
本发明属于数据挖掘方法技术领域,涉及基于特征权重的决策树特征选 择方法。
背景技术
在机器学习和数据挖掘领域,往往涉及到很多高维数据集,有时还包含 大量的无关属性和冗余属性,这些属性会导致机器学习算法对于测试集的分 类效果降低,影响各种预测系统在现实中的应用。因此,作为数据预处理阶 段中的一个重要步骤,特征选择可以将属性集中的无关的冗余的属性删除, 提取出与分类有很高的相关性的属性作为特征子集在下一步的分类中进行 使用,最终提升机器学习算法的分类准确率和速度。
特征选择算法主要包含三种方式,分别是过滤式、封装式和嵌入式特征 选择算法。过滤式特征选择的过程独立于数据分类的过程,使用数据的内在 属性对选取的属性进行评价,主要优点是计算速度快、复杂度低,缺点是难 以确定由过滤方法选择的属性是否能使特定的分类器的分类精度最大;封装 式特征选择算法将属性选择的过程放到机器学习算法过程中,通过后面的学 习算法的结果选择最合适的特征子集,该方法将特征选择和分类的决策进行 结合,因此分类准确率高,缺点是计算复杂度高;嵌入式特征选择算法,该方法将特征选择过程嵌入到机器学习算法中,构建训练模型的过程就是特征 选择的过程,例如正则化的L1、L2算法,决策树算法等,其中决策树算法 作为经典的数据挖掘算法,其构成决策树的过程就是特征选择的过程,在决 策树每个节点通过属性对样本进行划分。因此,如何选择属性就成了决策树 算法的一个非常重要的问题。目前经典的决策树算法有基于信息增益、信息 增益率以及基尼指数的特征选择方法。决策树算法的优点是分类准确率高, 构成过程能够很好地解释,并且构建过程简单快速,冗余属性不会影响算法 的分类准确率,对于噪声数据具有很好的鲁棒性,缺点是容易造成过拟合, 构成的决策树模型容易受到样本的影响,子树可能在决策树中重复多次,使 得决策树过于复杂。
发明内容
本发明的目的是提供一种基于特征权重的决策树特征选择方法,解决了 现有技术中存在的由于过拟合导致的决策树模型受到样本的影响,使得分类 准确率的问题。
本发明所采用的技术方案是,基于特征权重的决策树特征选择方法,具 体操作步骤如下:
步骤1、对数据集进行预处理,得到预处理数据集,其中,数据集包含 M个特征和N个样本,N个样本分布在K个类别中,特征集F={f1,f2,...fM}, 样本集S={s1,s2,...sN},类别C={c1,c2,....,cK};
步骤2、判断数据集中是否有连续特征:对连续特征使用K-Means聚类 算法进行离散化处理,非连续特征直接进入下一步;
步骤3、使用改进后的ReliefF算法对经过步骤2处理过的数据集中的 特征集进行过滤,保留在样本分类时与类别相关性高的特征;
步骤4、使用经过步骤3过滤得到的特征集构造决策树。
本发明的特点还在于:
步骤1具体包括:对于数据集中的缺失值使用该列特征的所有特征值的 平均值进行代替;对于数据集中不符合要求的类别值,将每个特征取值转换 为离散型的数字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010109760.1/2.html,转载请声明来源钻瓜专利网。