[发明专利]一种基于模糊ISODATA的特征选取方法无效

申请号：	201210324487.X	申请日：	2012-09-05
公开（公告）号：	CN102945238A	公开（公告）日：	2013-02-27
发明（设计）人：	刘全金;赵志敏;俞晓磊;汪东华;李颖新	申请（专利权）人：	南京航空航天大学;江苏省标准化研究院
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	210016***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于模糊 isodata 特征选取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于模糊ISODATA的特征选取方法，其特征在于，包括如下步骤：

第一步骤：数据集分割步骤，将数据集随机分成训练集、校验集和独立测试集，训练集用于生成候选特征子集，校验集用于校验候选特征子集所含的样本类别信息并从中选择确定最佳特征子集，独立测试集用于进一步测试最佳特征子集的分类和聚类性能；

第二步骤：特征灵敏度分析步骤，在递归特征选取过程中，对训练集样本进行模糊ISODATA聚类(Fuzzy Interactive Self-Organizing Data，又称模糊C均值聚类算法)，分析特征对聚类类别隶属度的灵敏度，并由灵敏度值较高的特征组成候选特征子集；

第三步骤：候选特征子集校验步骤，以候选特征子集F在校验集中的分类和聚类结果作为选择最佳特征子集的目标函数Object(F)，以目标函数Object(F)衡量候选特征子集所含的类别信息，选择目标函数最大的候选特征子集为最佳特征子集；

第四步骤：最佳特征子集测试步骤，用独立测试集测试第三步骤选择的最佳特征子集的分类和聚类能力，分类器和聚类算法与第三步骤的分类器和聚类算法相同，用训练集数据训练过的分类器对独立测试集的样本分类，用聚类算法对独立测试集的样本聚类，分类和聚类结果直观反映最佳特征子集的分类和聚类能力。

2.根据权利要求1所述的基于模糊ISODATA的特征选取方法，其特征在于，上述第二步骤中的特征灵敏度计算分析方法，包括如下步骤：

已知：训练集n个样本分别属于s个类别，每个样本有m个特征，第k个样本X_k＝{x_k1，...，x_kj，...，x_km}，其中x_kj为样本X_k的第j个特征。经模糊ISODATA聚类后，样本X_k对第i个聚类类别的隶属度uik=(Σj=1m(xkj-vij)2)-1/Σt=1s(Σj=1m(xkj-vtj)2)-1,]]>第i个聚类中心的第j个特征值vij=Σk=1n(uik)2xkjΣk=1n(uik)2.]]>

步骤1：对训练集样本进行模糊ISODATA聚类，根据样本对聚类类别的隶属度，分析特征对类别隶属度的灵敏度其中x_pj为样本X_p的第j个特征值；

步骤2：样本X_k第j个特征对隶属度u_ik的灵敏度计算公式为：

当k＝p时，

∂uik∂xpj|k=p=2(Σt=1s(Σj=1m(xkj-vtj)2)-1)2{Σt=1s(Σj=1m(xkj-vtj)2)-1·(Σj=1m(xkj-vij)2)-2(xkj-vij)(∂vij∂xpj)]]>

+(Σj=1m(xkj-vij)2)-1·Σt=1s[(Σj=1m(xkj-vtj)2)-2·(xkj-vtj)]-Σt=1s(Σj=1m(xkj-vtj)2)-1·(Σj=1m(xkj-vij)2)-2·(xkj-vij)-1]]>

-(Σj=1m(xkj-vij)2)·Σt=1s[(Σj=1m(xkj-vtj)2)-2(xkj-vtj)(∂vtj∂xpj)]};]]>

当k≠p时，

∂uik∂xpj|k≠p=2(Σt=1s(Σj=1m(xkj-vtj)2)-1)2{Σt=1s(Σj=1m(xkj-vtj)2)-1·(Σj=1m(xkj-vij)2)-2(xkj-vij)(∂vij∂xpj)]]>

-(Σj=1m(xkj-vij)2)-1·Σt=1s[(Σj=1m(xkj-vtj)2)-2(xkj-vtj)(∂vtj∂xpj)]},]]>

式中，∂vij/∂xpj=(uip)2/Σk=1n(uik)2;]]>

步骤3：计算第j个特征对隶属度的灵敏度：

3.根据权利要求1所述的基于模糊ISODATA的特征选取方法，其特征在于，上述第三步骤具体包括如下步骤：

步骤1：分类校验，用支持向量机(Support Vector Machine，SVM)和K近邻(K-nearest neighbor algorithm，KNN)两个分类器检验候选特征子集的分类能力，先在训练集中训练分类器，再用训练过的分类器对校验集样本分类；

步骤2：聚类校验，用层次聚类(Hierarchical Clustering，Clustering)算法检验候选特征子集的聚类能力，对校验集样本聚类；

步骤3：最佳特征子集选择，以候选特征子集F在校验集中的分类和聚类正确率作为选择最佳特征子集的目标函数Object(F)＝right_SVM(F)+right_KNN(F)+right_Clustering(F)，其中right_SVM(F)为支持向量机对校验集样本的分类正确率，right_KNN(F)为K近邻对校验集样本的分类正确率，right_Clustering(F)为层次聚类算法对校验集样本的聚类正确率，以目标函数衡量候选特征子集所含的类别信息，选择目标函数最高的候选特征子集为最佳特征子集。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学;江苏省标准化研究院，未经南京航空航天大学;江苏省标准化研究院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210324487.X/1.html，转载请声明来源钻瓜专利网。

上一篇：片板成型设备及该设备的模头装置
下一篇：使用个人网络路由表配置个人网络的装置和方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于模糊ISODATA的特征选取方法无效

专利文献下载