[发明专利]一种基于网格的密度峰值聚类方法及系统在审
申请号: | 201610515319.7 | 申请日: | 2016-06-30 |
公开(公告)号: | CN107563400A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 丁世飞;徐晓 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网格 密度 峰值 方法 系统 | ||
技术领域
本发明涉及模式识别和机器学习领域,具体涉及一种基于网格的密度峰值聚类方法及系统。
背景技术
聚类分析是非监督学习,其目标就是使同一类簇内样本的相似度较大,不同类簇之间样本的相似度较小。聚类分析是数据挖掘的一个活跃研究方向,在市场分析,模式识别,基因研究,图像处理等领域具有一定的应用价值。聚类算法大体可以分为基于划分、基于层次、基于模型、基于密度和基于网格等聚类算法。
基于网格的聚类算法性能好,效率高,运行时间独立于数据点的个数,只与划分区域中每一维的网格单元相关,对大数据集的分析处理具有较高的实用性,并且聚类的结果与输入数据的顺序无关,因而被广泛使用。但基于网格的聚类算法非常依赖于密度阈值的选择,对边缘网格中的噪音数据识别能力较差。基于密度的聚类算法以数据集在数据空间中的分布密集程度为一定的依据进行聚类,同时聚类的形状没有基准,并且可以在需要的时候去除噪声数据,但是基于密度的聚类算法计算复杂度较高。基于网格的聚类算法虽然效率高,但是由于本质上的缺陷,聚类精度不高,所以只能看作一种压缩手段,与密度结合来提高聚类性能。而基于密度的聚类算法由于复杂度高的原因,也经常通过与网格结合来降低运算量,两者的结合可以有效提高运行效率。
基于密度的DPC算法可以用于不同数据的聚类分析,不需要预先设定类簇数,可以根据决策图找出类簇中心,并能应用于任意形状的数据。但由于DPC算法需要提前计算所有点与点之间的距离,而当数据集越来越大时,尤其这是一个大数据时代,这种计算局部密度的方法需要花费一定的时间代价。
发明内容
为了解决上述问题,本发明提出一种基于网格的密度峰值聚类方法及系统。首先,将数据空间划分为等大小的矩形单元格,然后,分别将每个数据点映射到对应的单元格中,再统计每个单元格的数据信息,将每个单元格看作为一个数据点,最后使用密度峰值算法对单元格进行聚类。该方法不仅能够有效提高密度峰值算法的运行效率,很好地处理大数据集,发现任意形状的簇,有效处理高维数据,并能很好地处理噪声孤立点,具有很好地聚类效果。
本发明是通过以下方案实现的:
本发明涉及一种基于网格的密度峰值聚类方法,以基于密度的DPC算法作为基础,在计算每个数据点的局部密度属性值时引入网格的思想,以减少计算量,提高运行效率。
本发明具体步骤如下:
步骤1:使用网格思想将S空间的每一维都划分成互不相交的等大小网格单元。
步骤2:将每个数据点映射到对应的网格单元中。
步骤3:统计每个网格单元中数据点的个数,作为这个单元格的局部密度ρi。
步骤4:参考DPC算法,将单元格作为数据点,构成距离矩阵dij。
步骤5:利用计算单元格与具有更高密度的最近单元格之间的距离属性δi。
步骤6:根据上述求出的局部密度属性ρi和距离属性δi,绘制决策图,取两个属性值都高的单元格作为聚类中心。
步骤7:对剩余单元格进行聚类,将当前单元格归于密度等于或者高于当前单元格的最近单元格一类。
步骤8:计算出当前类别的边界,然后找出边界中密度最高单元格的密度作为阈值,去除当前类别中小于此密度的单元格。
通过以上内容可知,本申请提供的是一种基于网格的密度峰值聚类方法及系统,首先通过基于网格的CLIQUE算法对数据进行初始化聚类,将输入数据的区域空间分割成为等大小的网格矩形单元,然后将所有数据点映射到单元格,并统计每个单元格的数据信息。然后将每个单元格看作为一个数据点,使用DPC算法对单元格进行聚类。本申请不仅能够有效提高密度峰值算法的运行效率,很好地处理大数据集,发现任意形状的簇,有效处理高维数据,并能很好地处理噪声孤立点,具有很好地聚类效果。
附图说明
为了对本发明进一步理解,更清楚地说明本发明实施例,下面将对实施例描述中所需要使用的附图作简单介绍。
图1为本申请实施案例提供的一种基于网格的密度峰值聚类的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施案例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例1
如图1所示,本实施案例包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610515319.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识熵的特征加权谱聚类方法及系统
- 下一篇:二维码的生成方法和装置