[发明专利]一种基于网格的密度峰值聚类方法及系统在审
申请号: | 201610515319.7 | 申请日: | 2016-06-30 |
公开(公告)号: | CN107563400A | 公开(公告)日: | 2018-01-09 |
发明(设计)人: | 丁世飞;徐晓 | 申请(专利权)人: | 中国矿业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 221116 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 网格 密度 峰值 方法 系统 | ||
1.一种基于网格的密度峰值聚类方法及系统,其特征在于,利用网格思想将数据空间划分为等大小的网格单元,然后对数据进行初始化聚类,将数据点映射到对应的网格单元中,并统计网格单元的数据信息,再将每个单元格看作为一个数据点,使用DPC算法对单元格进行聚类,得出聚类结果。
2.根据权利要求1所述的方法,其特征是,所述的数据集X={X1,X2,X3,……Xn}是一个n*d的矩阵,矩阵的每行表示一个数据点,每列表示一种属性,故这个数据集包含n个数据点,每个数据点有d种属性。
3.根据权利要求1所述的方法,其特征是,所述的初始化聚类是指:利用CLIQUE算法将数据空间每一维划分为等大小的网格单元,然后将所有数据点映射到对应单元格,并统计每个单元格的数据点个数作为此单元格的局部密度ρi。
4.根据权利要求1所述的方法,其特征是,所述的使用DPC算法对单元格进行聚包括:
步骤1:将划分好的网格单元看作为一个数据点;
步骤2:分别取每个单元格左下标计算两两单元格之间的距离,构成距离矩阵dij;
步骤3:利用公式计算单元格与具有更高密度的最近单元格之间的距离属性δi;
步骤4:根据上述所求的局部密度属性ρi和距离属性δi,绘制单元格决策图,取两个属性值都高的单元格作为聚类中心;
步骤5:采用最近邻算法进行剩余单元格的聚类,将当前点归于密度等于或者高于当前点的最近点一类;
步骤6:采用DPC算法中边界值方法,计算出当前类别的边界,然后找出边界中密度最高点的密度作为阈值,去除当前类别中小于此密度的点。
5.一种实现上述任一权利要求所述方法的系统,其特征在于:网格划分模块和密度峰值聚类模块,其中网格划分模块将每个数据点进行初步聚类,首先划分数据空间成等大小网格单元,然后将数据点映射到对应网格中,统计网格单元中数据点的个数;密度峰值聚类模块先求解出每个网格单元的δi,然后绘制决策图选择聚类中心,分配所有剩余的网格单元,去除噪声单元,输出聚类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国矿业大学,未经中国矿业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610515319.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于知识熵的特征加权谱聚类方法及系统
- 下一篇:二维码的生成方法和装置