[发明专利]一种面向复杂模式分类的特征选择方法在审
申请号: | 201710276865.4 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107169509A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 杨常清 | 申请(专利权)人: | 西安航空学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙)61223 | 代理人: | 俞晓明 |
地址: | 710077 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 复杂 模式 分类 特征 选择 方法 | ||
技术领域
本发明涉及模式分类技术领域,具体为一种面向复杂模式分类的特征选择方法。
背景技术
模式分类问题目前广泛适用于社会的各个领域,如图像分类、数据挖掘、信息检索、信息提取、语音识别等,其处理方法通常包括以下几个方面:样本预处理、特征提取、特征选择、分类。其中特征选择是模式分类中重要的预处理过程。在模式分类中经过特征提取后的样本往往还有大量的特征,特征选择就是从这些大量的特征中过滤掉对分类无关或作用较小的特征,选择出对分类非常有用的特征,以便分类器进行分类,因此特征选择影响着模式分类的准确率和效率。
近年来,模式分类问题已经变得越来越复杂,主要表现在模式分类的类别增多,类与类之间的区别越来越微妙,待分类的样本数越来越多,特征是否包含足够的类别信息越来越难以确定,为了提高分类准确率,总是最大限度的提取特征,结果不仅使特征维度大,而且可能还会存在较大的相关性和冗余性,这给特征的进一步提取和分类器的实现带来了很大的困难。为此,我们提出了一种面向复杂模式分类的特征选择方法投入使用,以解决上述问题。
发明内容
本发明的目的在于提供一种面向复杂模式分类的特征选择方法,以解决上述背景技术中提出的特征维度大,而且可能还会存在较大的相关性和冗余性,这给特征的进一步提取和分类器的实现带来了很大的困难的问题。
为实现上述目的,本发明提供如下技术方案:一种面向复杂模式分类的特征选择方法,该面向复杂模式分类的特征选择方法的具体步骤如下:
S1:离散化数据集D中的连续特征,其结果使用D表示,每个特征的Gini指标值累加和Sum(Di)置0;
S2:计算特征的Gini系数,并根据计算特征进行重复操作;
S3:针对特征D1~Dm按Sum(Di)的大小进行升顺排列得到
S4:在特征集的折线图中找到急剧变化的点或拐点i0,若急剧变化的点数超过1个,则选取编号最大的拐点即为选择的重要特征子集。
优选的,所述步骤S2中,Gini系数的计算具体过程如下:
S21:随机选择聚类阈值,采用一趟聚类算法对数据集D进行聚类;
S22:在聚类结果上计算每个特征Di的Gini系数G(Di);
S23:对Gini系数进行累加。
优选的,所述步骤S21中,一趟聚类算法的具体过程如下:
S211:初始时,簇集合为空,读入一个新的对象;
S212:以读入的新的对象构造一个新的簇;
S213:若已到数据库结尾,则结束聚类算法过程,否则读入新的对象,利用给定的距离定义,计算它与每个已有簇间的距离,并选择最小的距离;
S214:若最小距离超过给定的半径阈值,则转入步骤S212中进行重新构造一个新的簇;
S215:否则将该对象并入具有最小距离的簇中并更新该簇的给分类特征值的统计频度,转入步骤S213中。
优选的,所述步骤S214中,聚类过程中聚类阈值采用抽样技术来计算,其具体步骤如下:
S2141:在数据集D中随机选择N0对对象;
S2142:计算每对对象间的距离;
S2143:计算步骤S2142中对象间距离的平均值EX;
S2144:在0.5*EX和EX之间随机取阈值。
优选的,所述步骤S22中,Gini系数的计算方法为,设数据集D经聚类后划分为k个簇,D={C1,C2…,Ck},其中特征Di在簇上的Gini系数定义为:其中ni是特征Di的不同取值的个数,即特征被分成的类别数,p(Cit)表示特征Di的第t个取值在簇Ci中的频率,特征Di的Gini指标值定义Di在各簇Ci上的Gini系数的加权平均:
与现有技术相比,本发明的有益效果是:本发明中采用多次重复计算减少聚类阈值对结果的影响,减小特征维度,避免出现特征提取后的相关性和冗余性,减少分类器的工作难度,能够广泛应用于各种复杂模式分类问题中,具有自适应能力强、适用范围广的优点。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安航空学院,未经西安航空学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710276865.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能文具盒
- 下一篇:一种学生用的多功能背包