[发明专利]一种基于模糊ISODATA的特征选取方法无效
申请号: | 201210324487.X | 申请日: | 2012-09-05 |
公开(公告)号: | CN102945238A | 公开(公告)日: | 2013-02-27 |
发明(设计)人: | 刘全金;赵志敏;俞晓磊;汪东华;李颖新 | 申请(专利权)人: | 南京航空航天大学;江苏省标准化研究院 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提出了一种基于模糊ISODATA的特征选取方法,属于机器学习领域。该方法利用分类和聚类算法的互补性,基于模糊ISODATA(Interactive Self-Organizing Data)的灵敏度分析方法,从高维数据集中选取出具有较强分类和聚类能力的关键特征。首先对训练集样本进行模糊ISODATA聚类,由此分析特征对聚类类别隶属度的灵敏度,并据此在递归特征选取过程中产生候选特征子集,然后根据候选特征子集在校验集中的分类和聚类结果选出类别信息最丰富的候选特征子集为最佳特征子集。本发明方法在选取出具有较强分类和聚类能力的关键特征的同时,特征选取的效率也比较高,对于不同数据集的特征选取也有较好的适应性,特征选取结果总体上优于传统方法。 | ||
搜索关键词: | 一种 基于 模糊 isodata 特征 选取 方法 | ||
【主权项】:
一种基于模糊ISODATA的特征选取方法,其特征在于,包括如下步骤:第一步骤:数据集分割步骤,将数据集随机分成训练集、校验集和独立测试集,训练集用于生成候选特征子集,校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集,独立测试集用于进一步测试最佳特征子集的分类和聚类性能;第二步骤:特征灵敏度分析步骤,在递归特征选取过程中,对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self‑Organizing Data,又称模糊C均值聚类算法),分析特征对聚类类别隶属度的灵敏度,并由灵敏度值较高的特征组成候选特征子集;第三步骤:候选特征子集校验步骤,以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F),以目标函数Object(F)衡量候选特征子集所含的类别信息,选择目标函数最大的候选特征子集为最佳特征子集;第四步骤:最佳特征子集测试步骤,用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力,分类器和聚类算法与第三步骤的分类器和聚类算法相同,用训练集数据训练过的分类器对独立测试集的样本分类,用聚类算法对独立测试集的样本聚类,分类和聚类结果直观反映最佳特征子集的分类和聚类能力。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学;江苏省标准化研究院,未经南京航空航天大学;江苏省标准化研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210324487.X/,转载请声明来源钻瓜专利网。