[发明专利]一种基于模糊ISODATA的特征选取方法无效
申请号: | 201210324487.X | 申请日: | 2012-09-05 |
公开(公告)号: | CN102945238A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 刘全金;赵志敏;俞晓磊;汪东华;李颖新 | 申请(专利权)人: | 南京航空航天大学;江苏省标准化研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 isodata 特征 选取 方法 | ||
1.一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:
第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;
第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self-Organizing Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;
第三步骤:候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集;
第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。
2.根据权利要求1所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第二步骤中的特征灵敏度计算分析方法,包括如下步骤:
已知:训练集n个样本分别属于s个类别,每个样本有m个特征,第k个样本Xk={xk1,...,xkj,...,xkm},其中xkj为样本Xk的第j个特征。经模糊ISODATA聚类后,样本Xk对第i个聚类类别的隶属度
步骤1:对训练集样本进行模糊ISODATA聚类,根据样本对聚类类别的隶属度,分析特征对类别隶属度的灵敏度其中xpj为样本Xp的第j个特征值;
步骤2:样本Xk第j个特征对隶属度uik的灵敏度计算公式为:
当k=p时,
当k≠p时,
式中,
步骤3:计算第j个特征对隶属度的灵敏度:
3.根据权利要求1所述的基于模糊ISODATA的特征选取方法,其特征在于,上述第三步骤具体包括如下步骤:
步骤1:分类校验,用支持向量机(Support Vector Machine,SVM)和K近邻(K-nearest neighbor algorithm,KNN)两个分类器检验候选特征子集的分类能力,先在训练集中训练分类器,再用训练过的分类器对校验集样本分类;
步骤2:聚类校验,用层次聚类(Hierarchical Clustering,Clustering)算法检验候选特征子集的聚类能力,对校验集样本聚类;
步骤3:最佳特征子集选择,以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数Object(F)=rightSVM(F)+rightKNN(F)+rightClustering(F),其中rightSVM(F)为支持向量机对校验集样本的分类正确率,rightKNN(F)为K近邻对校验集样本的分类正确率,rightClustering(F)为层次聚类算法对校验集样本的聚类正确率,以目标函数衡量候选特征子集所含的类别信息,选择目标函数最高的候选特征子集为最佳特征子集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学;江苏省标准化研究院,未经南京航空航天大学;江苏省标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210324487.X/1.html,转载请声明来源钻瓜专利网。