[发明专利]对数据进行聚类的方法、设备和系统有效

专利信息
申请号: 200910126215.7 申请日: 2009-03-09
公开(公告)号: CN101833553A 公开(公告)日: 2010-09-15
发明(设计)人: 范志刚;李季檩;吴亚栋;吴波;陈芒 申请(专利权)人: 夏普株式会社
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 王波波
地址: 日本国大阪府大阪市阿倍野*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 进行 方法 设备 系统
【说明书】:

技术领域

本发明涉及数据挖掘和信息索引,具体涉及一种对数据进行聚类的方法、设备和系统,其允许快速并精确地对输入的数据项进行聚类。

背景技术

目前,人们会接触到大量的数据。如何对这些数据进行分析、整理、聚类或者挖掘,进而获得其中的规律性,的问题是困扰人们的问题。

现有的数据聚类方法主要是基于传统的K-means算法,模糊K-means或者分级式汇聚的聚类模型。专利文献1(CN1881218A)披露了一种聚类技术。在该专利文献1中,提出了使用多维数据特征和迭代式汇聚合并策略。该方法通过逐级合并聚类来从各个元素创建分级结构。在汇聚式聚类过程中,每个元素最初被放在其自己的组中。首先确定那个单元要被融合到一个簇中。通常,根据所选的距离度量,将距离最接近的两个元素融合到一个簇中。重复执行该迭代步骤多次,将最终产生的簇作为聚类结果。

但是,该专利文献1所披露的数据聚类方法对于大规模数据集而言处理速度较慢。该方法不能使用分布式和并行计算来解决聚类过程中的大规模计算问题,这是因为该方法针对计算任务的分级式分解而言,没有合适的模型结构。由于无法进行分级式分解,聚类任务不能在并行平台上进行,并且必须使用串行计算。因此,对于大规模聚类问题来说,该方法的速度非常低。

另外,该专利文献1所披露的数据聚类方法主要使用传统的分级式汇聚分类步骤,它不能获得数据空间的统计特征。因此,该方法针对现实世界的数据集而言鲁棒性差。尤其对于大规模数据集,该方法将严重恶化,并且降低了聚类精度和鲁棒性,因为其丢失了数据集的特征空间中的统计细节。同时,该方法需要用户设置较多的参数。这样对于用户而言非常不方便,并且对于现实世界的应用没有自适应能力。在该方法中,不同的参数设置可能会严重影响聚类的精度,因为聚类过程是通过这些参数来初始化的,且聚类结果严重依赖于参数设置。当使用该方法时,较差的参数设置必将导致较差的聚类结果,但是用户却不知道如何找到最佳的参数设置。因此,该专利文献1所披露的方法很难为用户产生较好的聚类结果。该方法对于实际的应用来说,也是不够的。

发明内容

本发明的目的是提出一种对数据进行聚类的方法和设备,允许对大规模数据进行分级式聚类,以便提高聚类的速度和精度。

在本发明的一个方面,提出了一种对数据进行聚类的方法,包括步骤:针对输入的数据项创建分级式生成树;对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成子树来获得聚类结果。

在本发明的另一方面,提出了一种对数据进行聚类的设备,包括:分级式生成树创建单元,针对输入的数据项创建分级式生成树;图缩减单元,对创建的分级式生成树执行迭代式图缩减,以便缩减分级式生成树上的边缘点;图切分单元,对缩减后的分级式生成树执行受约束的图切分处理,以计算分级式生成树中每个边的切分值;以及分级式分割单元,选择具有最大切分值的边作为要切分的位置来将分级式生成树切分成多个子树来获得聚类结果。

利用本发明的上述方法和设备,能够基于分级式结构,以并行的方式对大规模数据集合进行计算,提高了聚类过程的计算速度。

另外,本发明的方法和设备使用自适应的分割并包围和从粗到细的策略来对大规模数据集合进行计算。因此具有较高的数据聚类精度。

另外,本发明所提出的方法和设备采用基于并行计算和分级式结构,允许进行在线的实时应用。

附图说明

通过下面结合附图说明本发明的优选实施例,将使本发明的上述及其它目的、特征和优点更加清楚,其中:

图1A示出了根据本发明实施例的数据处理系统的结构示意图;

图1B示出了根据本发明实施例的数据处理系统中的聚类装置的结构示意图;

图2示出了根据本发明实施例的聚类设备对数据进行聚类的过程的流程图;

图3A和3B是描述分级式生成树的产生过程的示意图;

图4是描述迭代式图缩减过程的示意图;

图5是描述受约束的图切分处理过程的示意图;

图6是描述分级是分割的处理过程的示意图。

具体实施方式

下面参照附图对本发明的优选实施例进行详细说明,在描述过程中省略了对于本发明来说是不必要的细节和功能,以防止对本发明的理解造成混淆。

图1A示出了根据本发明实施例的数据处理系统的结构示意图。该数据处理系统例如是用于信息浏览和索引的各种数据聚类系统和图像聚类系统。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于夏普株式会社,未经夏普株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200910126215.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top