[发明专利]一种用于高维数据聚类的半监督降维方法无效
申请号: | 201110308490.8 | 申请日: | 2011-10-12 |
公开(公告)号: | CN102411610A | 公开(公告)日: | 2012-04-11 |
发明(设计)人: | 刘海风;杨政;吴朝晖 | 申请(专利权)人: | 浙江大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 杭州天勤知识产权代理有限公司 33224 | 代理人: | 胡红娟 |
地址: | 310027 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 数据 监督 方法 | ||
技术领域
本发明属于数据处理技术领域,具体涉及一种用于高维数据聚类的半监督降维方法。
背景技术
聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域:在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。
常见的聚类分析方法主要包括如下几种:
(1)分裂法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有:K均值聚类算法(Kmeans)、K中心聚类算法(Kmedoids)和聚类大应用程序算法(CLARA,Clustering LARge Application)等。
(2)层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有:基于平衡迭代降低的层次聚类算法(BIRCH,Balanced Iterative Reducing andClustering using Hierarchies)、基于表达的聚类算法(CURE,Clustering UsingREprisentatives)和基于动态模型的层次聚类算法(CHEMALOEN)等。
(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有:基于密度的聚类算法(DBSCAN,Densit-based Spatial Clustering of Application with Noise)和基于对象排序识别聚类结构的聚类算法(OPTICS,Ordering Points To Identify the Clustering Structure)。
(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。
(5)基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。
这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题:(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。
针对以上两个问题,也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息,在进行聚类之前,先进行数据降维是非常必要的。目前主要的降维方法有:
(1)主成分分析(Principal Component Analysis,PCA):经典的无监督线性降维方法。其是一种掌握事物主要特征的方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。
(2)线性判别分析(Linear Discriminant Analysis,LDA):经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构,适用于以分类和识别为目的的降维,但重构效果不如PCA方法。
(3)非负矩阵分解(Nonnegative Matrix Factorization,NMF):非负矩阵分解法通过将数据矩阵分解为基矩阵V和系数矩阵H来达到降维的目的,在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110308490.8/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置