[发明专利]一种基于模糊ISODATA的特征选取方法无效
申请号: | 201210324487.X | 申请日: | 2012-09-05 |
公开(公告)号: | CN102945238A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 刘全金;赵志敏;俞晓磊;汪东华;李颖新 | 申请(专利权)人: | 南京航空航天大学;江苏省标准化研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 isodata 特征 选取 方法 | ||
技术领域
本发明涉及特征选取方法,尤其涉及高维集数据的特征选取方法,属于机器学习领域。
背景技术
特征选取是机器学习中样本分类和识别的重要环节之一,其目的是降低特征维数,选取对样本分类至关重要的具有丰富类别信息的关键特征,提高分类质量和效率。特征选取具有很高的实际应用价值,对样本分类、聚类及亚型发现,特别是生物信息学领域的基因表达谱样本的类型识别有重要的作用。
为满足特征选取实际运用的需要,目前有大量的特征选取方法,其中绝大部分为将filter和wrapper方法相结合,基于分类模型进行的特征选取方法。(1)Guyon等人提出基于支持向量机的特征选取方法,I.Guyon,J.Weston,S.Barnhill,et al.,Gene selection for cancer classification using support vector machines,Machine Learning,2002,46(1-3),他们对两个基因表达谱数据集进行了特征基因选取。(2)Cai等人提出基于互信量技术的特征选取方法,R.C.Cai,Z.F.Hao,X.W.Yang,W.Wen,An efficient gene selection algorithm based on mutual information,Neurocomputing,2009(72),对基因表达谱数据集进行了特征基因选取。
近年来,有文献研究如何融合分类算法和聚类算法的优势,利用二者的互补性进行特征选取和分类。(1)Yousef等人提出基于递归聚类剔除过程的选取特征基因选取方法,M.Yousef,S.Jung,LC Showe,MK Showe,Recursive Cluster Elimination(RCE)for classification and feature selection from gene expression data,BMC Bioinformatics,2007,8(1)144,这种方法在特征选取过程中引入聚类算法。(2)Cai等人提出分类和聚类算法相结合的学习框架,W.L.Cai,S.C.Chen,and D.Q.Zhang,A simultaneous learning framework for clustering and classification,Pattern Recognition,2009,42(7),这种方法以聚类时类内数据的紧密程度为参数,完成对聚类和分类的目标函数的合并和补充。
上述方法选取的关键特征有较强的分类能力,但聚类能力相对较弱。
发明内容
本发明针对上述特征选取方法的不足,利用分类和聚类算法的互补性,提出基于模糊ISODATA(Interactive Self-Organizing Data,又称模糊C均值聚类算法)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键信息特征。
本发明方法的流程如图1所示,该方法主要包括如下四个步骤:
第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;
第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类,分析特征对聚类类别隶属度的灵敏度,逐级筛选高灵敏度的特征组成候选特征子集;
特征灵敏度分析方法分为如下几步:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学;江苏省标准化研究院,未经南京航空航天大学;江苏省标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210324487.X/2.html,转载请声明来源钻瓜专利网。