[发明专利]一种基于无监督特征选择的分类方法有效

申请号：	201410166747.4	申请日：	2014-04-22
公开（公告）号：	CN103942568B	公开（公告）日：	2017-04-05
发明（设计）人：	郑宝芬;苏宏业;罗林	申请（专利权）人：	浙江大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	杭州求是专利事务所有限公司33200	代理人：	邱启旺
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于监督特征选择分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及信号处理、数据挖掘以及聚类分析等数据处理领域，具体涉及一种利用基于信息度量学习的无监督特征选择方法对高维数据进行降维，然后用支持向量机建立分类模型的方法。

背景技术

随着互联网和信息行业的不断发展，经济、电子信息、医学、气象等多个领域的数据信息也迎来了爆发式增长的阶段，其中不乏海量的高维数据。如何对高维数据进行分类，以更好地发现潜在的有用信息，是数据挖掘领域的研究热点。

分类是通过建立描述预先定义的数据类或概念集的分类器，预测数据类标号的过程，有助于我们更好地全面了解数据，广泛应用于数据挖掘、机器学习、模式识别等领域，在电子商务等实际应用中创造了巨大的价值。

针对高维数据分类问题，传统方法通常是先对数据进行特征选择，再建立分类模型。然而在特征选择的时候通常是通过某种评价标准来对高维数据的特征进行重要性排序，忽略了不同的特征之间可能存在的关联，因此不能产生最优的特征子集，从而不能得到最优的分类结果。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于无监督特征选择的分类方法。

本发明的目的是通过以下技术方案来实现的：一种基于无监督特征选择的分类方法，该方法包括以下步骤：

(1)采集疲劳驾驶实验中志愿者的脑电图，对脑电图数据进行预处理，并进行特征抽取和归一化，得到样本数据集；

(2)将步骤1得到的样本数据集表述成相似图形式，并采用信息理论度量学习得到到样本数据集中不同样本点之间的距离，即建立样本数据集的相似矩阵，其中，x_i、x_j代表两个不同的样本数据，M是一个d×d维的半正定矩阵，d为输入空间的维度，W_M(x_i,x_j)为x_i、x_j两个样本点之间的距离；

(3)采用SM算法，利用样本数据集的相似矩阵W和其对应的对角矩阵D得到相似图的非规格拉普拉斯矩阵L，求解L的广义特征向量，取前k个记为Y＝[y₁,…,y_k]，完成样本数据集到特征向量空间的映射；

(4)对样本数据集的每个维度的重要性，首先计算各维度沿每个特征向量的相关系数，然后通过MCFS得分，得到每个维度对于样本数据集的相关系数；

(5)将每个维度对于样本数据集的相关系数从大到小进行排序，选择相关系数较大的维度，完成高维数据的特征选择；

(6)用支持向量机对步骤5特征选择后的数据建立分类模型；

(7)采集驾驶员的脑电数据，将其进行步骤1到步骤5所述的处理后，输入步骤6建立的分类模型，判断其是否处于疲劳状态。

进一步地，所述步骤2中所述的相似矩阵的建立方法如下：

(2.1)将样本数据集表示成相似图形式，具体方法为：若数据点为x＝[x₁,x₂…,x_d]，将数据集中的每个对象看作是图的顶点V，将顶点间的相似度量化作相应顶点连接边E的权值，得到一个基于相似度的无向加权图G(V,E)，每个顶点只与k个相似度最高的点连边，以简化计算复杂度；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201410166747.4/2.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载