[发明专利]一种用于高维数据聚类的半监督降维方法无效

专利信息
申请号: 201110308490.8 申请日: 2011-10-12
公开(公告)号: CN102411610A 公开(公告)日: 2012-04-11
发明(设计)人: 刘海风;杨政;吴朝晖 申请(专利权)人: 浙江大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 杭州天勤知识产权代理有限公司 33224 代理人: 胡红娟
地址: 310027 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 用于 数据 监督 方法
【说明书】:

技术领域

发明属于数据处理技术领域,具体涉及一种用于高维数据聚类的半监督降维方法。 

背景技术

聚类是机器学习和数据挖掘中一种常见的多元统计分析方法,它讨论的对象是大量的样品,要求能按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。目前,作为一种有效地数据分析手段,聚类方法被广泛应用于各大领域:在商业上,聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征;在生物上,聚类分析被用来动植物分类和基因进行分类,获取对种群固有结构的认识;在地理上,聚类能够帮助在地球中被观察的数据库上趋于的相似性;在保险行业上,聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的房产分组;在互联网应用中,聚类分析被用来对网络中的文档进行归类,对虚拟社区中的用户进行分组。 

常见的聚类分析方法主要包括如下几种: 

(1)分裂法,又称划分方法,首先创建K个划分,K为要创建的划分的个数;然后利用一个循环定位的技术通过将对象从一个划分移到另一个划分来改善划分质量。典型的划分方法有:K均值聚类算法(Kmeans)、K中心聚类算法(Kmedoids)和聚类大应用程序算法(CLARA,Clustering LARge Application)等。 

(2)层次法,通过创建一个层次以分解给定的数据集。该方法可以分为自上而下(分解)和自下而上(合并)两种操作方式。为弥补分解与合并的不足,层次合并经常要与其它聚类方法相结合,如循环定位。典型的层次方法有:基于平衡迭代降低的层次聚类算法(BIRCH,Balanced Iterative Reducing andClustering using Hierarchies)、基于表达的聚类算法(CURE,Clustering UsingREprisentatives)和基于动态模型的层次聚类算法(CHEMALOEN)等。 

(3)基于密度的方法,根据密度完成对象的聚类。它根据对象周围的密度不断增长聚类。典型的基于密度的方法有:基于密度的聚类算法(DBSCAN,Densit-based Spatial Clustering of Application with Noise)和基于对象排序识别聚类结构的聚类算法(OPTICS,Ordering Points To Identify the Clustering Structure)。 

(4)基于网格的方法,首先将对象空间划分为有限个单元以构成网格结构,然后利用网格结构完成聚类。 

(5)基于模型的方法,它假设每个聚类的模型并发现适合相应模型的数据。 

这些传统的聚类方法已经比较成功的解决了低维数据的聚类问题,但是由于实际应用中数据的复杂性,在处理许多高维数据时经常失效。因为传统聚类方法对高维数据集中进行聚类时,主要遇到两个问题:(1)高维数据集中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;(2)高维带来的维度灾难使得某些聚类算法的实用性几乎为零。 

针对以上两个问题,也就是为了解决维数灾难和消除数据中对于聚类来说不必要的冗余信息,在进行聚类之前,先进行数据降维是非常必要的。目前主要的降维方法有: 

(1)主成分分析(Principal Component Analysis,PCA):经典的无监督线性降维方法。其是一种掌握事物主要特征的方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。 

(2)线性判别分析(Linear Discriminant Analysis,LDA):经典的有监督降维方法。这种方法能够在低维子空间中保持类的相关结构,适用于以分类和识别为目的的降维,但重构效果不如PCA方法。 

(3)非负矩阵分解(Nonnegative Matrix Factorization,NMF):非负矩阵分解法通过将数据矩阵分解为基矩阵V和系数矩阵H来达到降维的目的,在矩阵分解过程中非负矩阵分解保持了基矩阵和系数矩阵的非负性。 

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110308490.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top