[发明专利]一种面向复杂模式分类的特征选择方法在审
申请号: | 201710276865.4 | 申请日: | 2017-04-25 |
公开(公告)号: | CN107169509A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 杨常清 | 申请(专利权)人: | 西安航空学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙)61223 | 代理人: | 俞晓明 |
地址: | 710077 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 复杂 模式 分类 特征 选择 方法 | ||
1.一种面向复杂模式分类的特征选择方法,其特征在于:该面向复杂模式分类的特征选择方法的具体步骤如下:
S1:离散化数据集D中的连续特征,其结果使用D表示,每个特征的Gini系数累加和Sum(Di)置0;
S2:计算特征的Gini系数,并根据计算特征进行重复操作;
S3:针对特征D1~Dm按Sum(Di)的大小进行升顺排列得到
S4:在特征集的折线图中找到急剧变化的点或拐点i0,若急剧变化的点数超过1个,则选取编号最大的拐点i0.即为选择的重要特征子集。
2.根据权利要求1所述的一种面向复杂模式分类的特征选择方法,其特征在于:所述步骤S2中,Gini系数的计算具体过程如下:
S21:随机选择聚类阈值,采用一趟聚类算法对数据集D进行聚类;
S22:在聚类结果上计算每个特征Di的Gini系数G(Di);
S23:对Gini系数进行累加。
3.根据权利要求2所述的一种面向复杂模式分类的特征选择方法,其特征在于:所述步骤S21中,一趟聚类算法的具体过程如下:
S211:初始时,簇集合为空,读入一个新的对象;
S212:以读入的新的对象构造一个新的簇;
S213:若已到数据库结尾,则结束聚类算法过程,否则读入新的对象,利用给定的距离定义,计算它与每个已有簇间的距离,并选择最小的距离;
S214:若最小距离超过给定的半径阈值,则转入步骤S212中进行重新构造一个新的簇;
S215:否则将该对象并入具有最小距离的簇中并更新该簇的给分类特征值的统计频度,转入步骤S213中。
4.根据权利要求3所述的一种面向复杂模式分类的特征选择方法,其特征在于:所述步骤S214中,聚类过程中聚类阈值采用抽样技术来计算,其具体步骤如下:
S2141:在数据集D中随机选择N0对对象;
S2142:计算每对对象间的距离;
S2143:计算步骤S2142中对象间距离的平均值EX;
S2144:在0.5*EX和EX之间随机取阈值。
5.根据权利要求2所述的一种面向复杂模式分类的特征选择方法,其特征在于:所述步骤S22中,Gini系数的计算方法为,设数据集D经聚类后划分为k个簇,D={C1,C2…,Ck},其中特征Di在簇上的Gini系数定义为:其中ni是特征Di的不同取值的个数,即特征被分成的类别数,p(Cit)表示特征Di的第t个取值在簇Ci中的频率,特征Di的Gini系数定义Di在各簇Ci上的Gini系数的加权平均:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安航空学院,未经西安航空学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710276865.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:多功能文具盒
- 下一篇:一种学生用的多功能背包