[发明专利]一种互信息的组策略嵌入式动态特征选择方法在审
申请号: | 201710222599.7 | 申请日: | 2017-04-06 |
公开(公告)号: | CN106991446A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 黄金杰;孔庆达 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于互信息组策略的动态特征选择方法,改进了传统互信息度量算法在进行特征选择的过程中的不足,本发明不仅考虑到特征与类别的相关度和其他特征与特征之间的冗余度,还将单个属性的相关性和冗余性进行了延伸,对特征组与特征组之间的相互关系通过相关性分析(CCA)进行了研究;通过动态特征选择的思想,通过分类器识别可以识别的样本数据,并将其从数据样本集中排除,以此剔除计算信息熵过程中的“虚假信息”。经过对比分析所提出的方法能够得到特征维数比较低、冗余度比较小但分类准确率较高的特征子集,并且具有比较好的稳定性。 | ||
搜索关键词: | 一种 互信 策略 嵌入式 动态 特征 选择 方法 | ||
【主权项】:
一种基于互信息的组策略嵌入式动态特征选择方法,其特征在于,包括以下步骤:首先介绍传统基于互信息的特征选择方法。1.数据集合预处理当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:2互信息的相关知识特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。其中,p(xi)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。条件熵是指已知一个变量的条件下,另一个变量的不确定程度,即一个变量对另一个变量的依赖程度的强弱程度,故随机变量X对另一个随机变量Y的依赖程度可以用条件熵来表征。其中,p(xi)表示变量X的先验概率p(xi|yj)表示变量Y在已知的条件下变量X的后验概率。互信息是表征两个随机变量之间的相互依赖程度,表示两个变量之间的共同拥有的信息量的多少,当互信息的值为0即为最小值表示两个变量之间不存在相同的信息,当互信息值较大时表示两个变量所包含的相同信息比较多。定义为:I(X;Y)=H(X)‑H(X|Y) (4)互信息能够非常有效的反映出两个随机变量之间的相互关系,并且能通过数值的形式表示出来,用数值的大小来表述两个随机变量之间的相互关系的紧密程度,但是在计算两个随机变量相互的信息量的同时还要考虑信息的增长情况,如果直接用互信息的大小来选择特征,将会选择那些取值比较大的特征,所以将互信息进行归一化处理,处理过程中采用对称不确定性SU度量特征变量与特征变量之间的相互关系的程度公式如下:由公式(5)可以看出SU相关度量值的变化范围是由0到1,如果SU的值为0,表示X与Y不存在相关性,即X与Y是相互独立的。如果SU的取值为1,表示X与Y存在很强的相关性,如果X与Y分别表示属性信息和类别信息,SU的值越大则表示特征对于类别的选择存在强相关性。如果X与Y分别表示两个属性信息,SU的值越大则表示特征与特征之间,属性与属性之间最在很强的冗余性,由于以上的相关论述借鉴MRMR算法中最大相关最小冗余的核心思想,提出在特征选择过程中对选择特征的评价函数的定义形式,形式如下:其中,SU(S∪fi,C)表示将备选特征加入已选特征集后与类别属性C之间的相关关系,SU(fs,fi)表示备选特征与已选特征之间的冗余程度,在这里将传统的惩罚因子进行了改进,改为1/|S|,|S|表示已选特征集中特征的个数。这样克服了传统惩罚因子需要人工设置的不足。作为本发明再进一步的方案:介绍基于互信息的组策略嵌入式动态特征方法。3.特征组策略的线性相关分析根据公式(4)分别计算数据集中每一个特征属性与类型属性之间的互信息的大小,并根据k‑means算法将所计算的互信息的大小进行聚类分析,通过以上操作可以将特征集合进行特征的块划分,将特征集划分成k特征块的集合,表示为:为了衡量特征块与属性之间的相互关系,采用线性相关分析进行分析,其中CA(Si,C)表示特征块Si与类别C之间的相互关系,CA的值越大则表示特征对于类别的选择存在强相关性,CA(Si,Sj)表示特征块与特征块之间的冗余性,CA的值越大则表示特征块与特征块之间的冗余性越大。CA的计算方法如下:Sxx=(X‑X平均)(X‑X平均)T (8)Syy=(Y‑Y平均)(Y‑Y平均)T (9)Sxy=(X‑X平均)(Y‑Y平均)T (10)Syx=(Y‑Y平均)(X‑X平均)T (11)其中,S为相应样本数据的协方差矩阵,经计算可得:分别计算R1与R2矩阵的特征值,最大的非0特征值即为相关系数也就CA(X,Y)的值。根据特征块的评价函数对已经分块的特征块进行排序,特征块的评价函数如下:其中CA(SS∪Si,C)表示备选特征块加入已选特征集后与类别属性C之间的相关关系,CA(Si,Sj)表示备选特征块与已选特征块之间的冗余程度。4.嵌入式的动态选择基于互信息的度量标准,首先我们要对特征在样本数据集中的概率分布情况进行合理的计算,对于样本数据确定以后,特征在所在样本数据集的概率也就是唯一的确定下来,但随着特征的不断被选择出来,样本数据集中的样本数据将被不断的识别出来,那么在互信息的计算过程中将会有所变化,如果仍然选择传统基于互信息的计算方法将会产生较大的误差,因此,已识别的样本数据对未被选择的特征在计算方面提供了一些“虚假信息”。对于算法中提出的动态的特征选择,主要的研究内容是如何识别那些可以通过已选特征识别的样本数据,并将数据从数据集中剔除,并根据剩余的样本数据计算信息熵,本文选择在算法运行的过程中嵌入一种分类器来进行样本的识别,本文选择嵌入KNN分类器来识别可识别样本,并将经过KNN分类器识别的样本数据从样本数据集中的删除,在不改变特征与类别相关性的同时,降低了数据集的样本数据的个数和特征的维数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710222599.7/,转载请声明来源钻瓜专利网。