[发明专利]一种互信息的组策略嵌入式动态特征选择方法在审
申请号: | 201710222599.7 | 申请日: | 2017-04-06 |
公开(公告)号: | CN106991446A | 公开(公告)日: | 2017-07-28 |
发明(设计)人: | 黄金杰;孔庆达 | 申请(专利权)人: | 哈尔滨理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150080 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 互信 策略 嵌入式 动态 特征 选择 方法 | ||
技术领域
本发明涉及模式识别领域,具体是一种基于互信息的组策略嵌入式动态特征选择方法。
背景技术
随着科学技术的发展,包括计算机技术、信息技术在内的多领域出现了大量的高维度数据信息,这些信息在带给人们许多有用的知识信息的同时也带来了一系列前所未有的困难,给人们带来了许多关于学习任务方面的新挑战。现阶段人们获得和处理的数据大多数是高维数据集,它包含了很多的与分类十分相关的特征,但是也存在很多的无关特征信息和很多冗余特征信息、多特征共线性质的特征信息,有的样本数据中甚至还包含了噪声数据信息,这些无用的特征信息会使得人们在构建学习模型的过程中会产生过拟合或者减弱表征能力的现象,因此不能准确的表征数据集的特点信息。因此特征选择问题应运而生,特征选择的任务就是在高维度数据集中寻找出能够对分类说明力最强的“本征特征”并不会减弱数据样本的数据信息,达到较好的分类准确度,同时消除噪声数据的对分类的影响。
特征选择作为缩小数据集的数据规模、提高数据质量的一种手段被很多研究人员的广泛关注,特征选择的算法进行了分类,分为以下三类过滤式、包裹式、嵌入式。根据特征选择过程特征的评价标准的不同有一致性标准、距离标准、依赖性标准、分类错误率标准和信息量标准等。应运而生的产生一些特征选择的新算法,比如以特征权重为理论依据的Relief算法、以最大相关性和最小冗余性为理论依据的MRMR算法。这些算法或多或少的存在着一些不足之处,比如说在 MRMR算法在进行特征选择的过程中只考虑到单一特征属性与类别属性之间的相关性和单一特征属性与已选特征之间的冗余性,忽视了特征组与特征组之间同样也存在着相互作用关系。同时人们常用来衡量两变量之间的相互关系的互信息的估算方法仍未足够的有效,仅考虑特征与类别之间的相互关系以及特征与已选特征之间的相互关系,没有将随着特征被选择样本数据被不断被确定,信息熵的估算值在不断变化的动态过程表现出来。
基于以上的原因,方法提出了一种基于互信息的组策略嵌入式动态特征算法(GDIFS),运用特征组间的相互关系这个切入点去研究特征与类别属性间的相互关系,杜绝对单一特征的过分依赖问题,提出的嵌入式动态特征选择算法,通过嵌入的分类器将已识别的样本数据进行剔除,以此保证信息熵估算的准确性、实时性。通过对此方法进行验证,该方法有较好的稳定性和有效性。
发明内容
本发明的目的在于提供一种基于互信息的组策略嵌入式动态特征选择方法,以解决上述背景技术中提出的问题;为实现上述目的,本发明提供如下技术方案:具体是一种基于互信息的组策略嵌入式动态特征选择方法包括以下步骤:首先介绍传统基于互信息的特征选择方法。
1.数据集合预处理
当今在现实世界中数据库极其容易受到噪声数据、空缺数据、以及不一致数据的侵扰,现阶段有大量的数据预处理技术,大体上可以分为数据清理、数据集成、数据变换和数据规约技术。数据清理可以清除数据中噪声数据、纠正不一致,自行填补样本数据的缺失数据,数据变换(数据规范化)可以改进涉及距离度量的算法的精度和有效性。比如人们希望数据满足某种特定的数据分布,或者希望将每个数据特征映射到某一段特定的数据区间内,都是需要进行数据变换。对于本文而言数据集合的预处理主要分一下几个部分:第一将数据集合中的噪声数据和不一致数据空缺数据进行处理。第二将数据集中与分类完全不相关的属性数据进行删除。第三将属性数据进行范数归一化处理使范数归一化为1,则有:
2互信息的相关知识
特征选择的选择目标是选择出对于分类最有价值的特征属性,特征选择中关键性需要解决的问题有两个方面:一方面是度量标准问题,一方面是特征的评价函数的选择问题。在数据分类的研究过程中,如果一个特征属性与类别属性有强的相关性,那么该属性对于分类来说是十分重要的属性,如果一个特征属性与类别属性有弱的相关性,那么该属性对于分类来说是非重要的属性,因此针对这种相关性问题讨论,选择信息论中的互信息作为度量标准来分析属性间的相关性。下面介绍一下信息论中相关理论和运算规则。
信息熵是信息论理论中至关重要的概念,信息熵是表征变量的一种不确定程度,目的是表述信息含量的多少。
其中,p(xi)表示变量X取值为xi的概率,变量X的不确定程度就可以用信息熵H(X)来表示,H(X)值的大小只与变量的概率分布有关系,故在信息熵有效的克服了部分噪声数据的干扰。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710222599.7/2.html,转载请声明来源钻瓜专利网。