[发明专利]基于条件互信息的特征选择与评价方法在审

申请号：	201810820247.6	申请日：	2018-07-24
公开（公告）号：	CN109190660A	公开（公告）日：	2019-01-11
发明（设计）人：	周红芳;张尧;张英杰;刘虹江;温婧;韩霜	申请（专利权）人：	西安理工大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	西安弘理专利事务所 61214	代理人：	谈耀文
地址：	710048***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	候选特征基于条件特征选择互信息冗余互信息计算条件互信息步骤实施迭代算法前向迭代贪心算法特征条件特征子集最小条件数据集后向算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于条件互信息的特征选择与评价方法，具体按照以下步骤实施：对于一个数据集，计算每个特征与类之间的相关性以及特征与特征之间的相关性。关于特征与类之间的相关性计算，使用最小条件相关，在给定已选特征条件下计算候选特征与类之间条件互信息。关于特征与特征之间的相关性计算，这里分为两种，一种是使用条件互信息计算候选特征和两个已选特征之间的条件冗余，一种是计算候选特征与已选特征的类内冗余。在计算以上两种关系后，使用贪心算法，例如前向迭代算法，后向迭代算法等得到特征子集。

技术领域

本发明属于数据挖掘方法技术领域，涉及一种基于条件互信息的特征选择与评价方法。

背景技术

随着互联网的发展和智能设备的普及，数据的容量呈指数增长。企业使用数据挖掘技术从数据中建立用户的需求模型，以此来完善产品的设计。数据容量的增多为数据挖掘提供了条件，但同时数据维数的增高会延长模型的建立时间，降低模型的预测能力。特征选择就是解决这两个问题的关键技术。特征选择是从原特征集中选出对模型建立有用的特征，将这些特征构成新的子集。一般情况，特征选择算法分为三类，包括嵌入式特征选择算法、包装式特征选择算法和过滤式特征选择算法。嵌入式特征选择算法，其特征选择的过程与分类的过程关系密切，在特征选择的过程中完成分类。包装式特征选择算法，通过调用分类器根据分类结果对特征进行评价。而过滤式特征选择算法，其特征选择的过程与分类器完全独立。所以过滤式特征选择在计算上是高效的。

基于条件互信息的特征选择算法属于过滤式特征选择算法。不同于其他的度量，例如基于距离，基于卡方检验等。互信息从信息学的角度将特征与特征之间的关系以及特征与类之间的关系解释为信息量，传统的基于互信息的特征选择算法，使用互信息描述属性之间的关系，而条件互信息在信息表示上优于互信息，所以本文提出了基于条件互信息的特征选择与评价方法。

发明内容

本发明的主要目的是提供一种基于条件互信息的特征选择与评价方法，提出两种新的特征评价准则，并应用于不同的分类算法上，解决现有的基于互信息的特征选择方法无法精确描述特征与类关系导致分类准确率低的问题。

本发明所采用的技术方案是，基于条件互信息的特征选择与评价方法，具体操作步骤如下：

步骤1.对数据集进行预处理，得到预处理数据集；

步骤2.对预处理数据集进行离散化处理，预处理数据集中的所有特征值划分在不同的特征等级中；

步骤3.计算步骤2离散化处理后的数据集中所有特征X与类变量Y之间的重要程度；

步骤4.根据步骤3计算出的特征与类之间的重要程度I(X；Y)后，选择重要程度最大的特征作为重要特征，将这个重要特征从原特征集合中删除，添加到候选特征集合中，作为第一个被选入候选特征集的候选特征，再计算其他候选特征。

本发明的特点还在于，

步骤1预处理的步骤为：

数据集中的每一列为一个特征，每个特征有n行，将每个特征的取值范围压缩到0和1之间，得到预处理后的特征X；

步骤2离散化过程如下：

步骤2.1，对特征X中的所有元素进行升序排序得到X’；