[发明专利]一种并行高效的基于网格与密度的多维空间数据聚类算法GRIDEN在审
申请号: | 201711063595.5 | 申请日: | 2017-11-02 |
公开(公告)号: | CN107908696A | 公开(公告)日: | 2018-04-13 |
发明(设计)人: | 邓超;陈智斌;郭晓惠;农英雄;黄聪;李喆;韦屹;汪倍贝;钱方远 | 申请(专利权)人: | 广西中烟工业有限责任公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京三聚阳光知识产权代理有限公司11250 | 代理人: | 李红团 |
地址: | 530001 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 并行 高效 基于 网格 密度 多维 空间 数据 算法 griden | ||
技术领域
本发明涉及数据挖掘和大数据分析领域,具体涉及一种并行高效的基于网格与密度的多维空间数据聚类算法GRIDEN。
背景技术
空间数据聚类被广泛的应用于许多信息技术领域,例如数据挖掘、模式识别、机器学习、人工智能、可视分析、地理信息系统等。在大数据时代,它可用来探索与发现数据中潜在的模式及价值,可应用于许多学科领域,例如天文学、生物信息学、文献计量学、社会网络分析、经济网络分析、交通网络分析、气象分析、智慧城市发展等。传统的空间数据聚类方法主要有四种:1)、基于划分的聚类;2)、基于密度的聚类;3)、层次聚类;4)、基于网格的聚类。
基于密度的聚类方法可以有效的处理数据噪声点以及识别任意形状,其中,最经典的算法是DBSCAN(Density-Based Spatial Clustering of Applications with Noise),计算精度高。但是,传统的DBSCAN算法的时间复杂度为O(N2),随着数据样本数量的增长,所需计算时间呈指数级增加,使得DBSCAN的应用范围与场景受到限制。基于网格的聚类算法可以高效的进行数据聚类,其时间复杂度为O(N),所需计算时间随着数据样本数量的增长呈线性增加,但是对比基于密度的聚类算法,其聚类精度存在缺陷。
因此,如何将基于密度的算法和基于网格的算法有机结合起来,使得新型的变异算法可以同时具备基于密度的算法的精度和基于网格的算法的速度是值得研究的。同时现有绝大部分空间数据聚类方法在相关文献中并未给出并行化设计技术方案,在大数据时代下,支持并行计算意味着计算时间可以通过增加计算核心数量成倍的压缩,因此设计一款能够支持并行计算的空间数据聚类算法是具有现实意义的。
发明内容
本发明要解决的是现有基于密度的空间数据聚类算法效率不够高,以及现有基于网格的空间数据聚类算法精度不够高的问题,设计了一款能够同时具备基于密度聚类算法的精度和基于网格聚类算法的速度的变异空间数据聚类算法,同时结合了并行计算的思想与方法,本方法具备可靠的计算精度和非常强悍的运算效率。
为了解决上述技术问题,本发明提供如下技术方案:
一种基于网格与密度的多维空间数据聚类算法GRIDEN,包括以下步骤:
步骤1,根据预设近邻距离参数ε、网格划分系数k及D维空间数据集P创建D维空间数据网格G,并将P中的数据点映射到G中;
步骤2,计算关于所述近邻距离参数ε与所述网格划分系数k的近邻格子子集S;
步骤3,根据预设最小近邻参数Min_N和所述近邻格子子集S对所述D维空间数据网格G进行无监督的空间网格聚类,并根据数据点所在D维格子的聚类结果对整个所述D维空间数据集P进行分类标注。
可选地,上述并行高效的基于网格与密度的多维空间数据聚类方法中,所述k为大于0的自然数,ε为大于0的任意数值;D为正整数。所述创建一个D维空间数据网格G的具体方法为:计算每个格子的边长并根据所述边长L对所述D维空间数据集P的每个维度的数值范围进行平均切分;所述空间数据网格G中的每个格子为各边相等的超方格子。所述将P中的数据点映射到G中的具体方法为:根据所述D维空间数据集P中每个点的D维信息将数据点映射到相应的格子,并进行数据点数量累加与记录。
可选地,上述基于网格与密度的多维空间数据聚类算法GRIDEN中,所述近邻格子子集S的计算方法具体包括以下步骤:
1)对于所述D维空间数据网格G中的任意格子Ci,其所述近邻格子子集S中的任意格子Cj的正中心与Ci的正中心之间的空间距离不超过ε;
2)Ci也是Ci自己的近邻格子;
3)所述近邻格子子集S存在且仅存在于格子子集S1中,其中,S1是以Ci为空间正中心的(2k+1)D个格子的集合,且S1中的任意格子Cj与Ci在任意维度的间距均不超过k。
可选地,上述基于网格与密度的多维空间数据聚类算法GRIDEN中,所述无监督的空间聚类的计算方法具体包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西中烟工业有限责任公司,未经广西中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711063595.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于无菌处理的装置
- 下一篇:等离子体喷射空气过滤和灭菌系统