[发明专利]一种基于网格粒度计算的聚类方法及聚类系统在审

专利信息
申请号: 202010055555.1 申请日: 2020-01-17
公开(公告)号: CN111275099A 公开(公告)日: 2020-06-12
发明(设计)人: 徐慧;姚舜宇;李倩云;高鳗;张伟;陈宏伟;刘伟;宗欣露;苏军;严灵毓 申请(专利权)人: 湖北工业大学
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 北京金智普华知识产权代理有限公司 11401 代理人: 杨采良
地址: 430068 湖*** 国省代码: 湖北;42
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 网格 粒度 计算 方法 系统
【说明书】:

发明属于数据处理技术领域,公开了一种基于网格粒度计算的聚类方法及聚类系统,基于网格粒度计算的聚类方法包括读取原始数据集;初始化相关参数;对n维数据进行划分,划分为互不相交的网格,遍历所有网格并将其标记为中心网格,边缘网格和噪声网格;对处理后的网格进行基于粒度的密度计算,根据密度峰值获得聚类中心,最后输出聚类结果。本发明在K‑means算法的基础上,消除了噪声的影响,同时优化了初始点的选取;通过网格化优化解决了基于密度峰值的快速聚类算法计算量大的问题,也避免了过多的人工决策和因此导致的误差。通过引入粒度的概念,避免了网格化时破坏密集区域的边缘,提高了聚类初始化中心点的准确性。

技术领域

本发明属于数据处理技术领域,尤其涉及一种基于网格粒度计算的聚类方法及聚类系统。

背景技术

目前,最接近的现有技术:大数据技术的发展,随之产生的数据量高速增加,大数据的挖掘成为了共同难题,传统的数据存储和处理数据已经无法满足需求。聚类分析作为对各种数据的分析的重要技术再次成为研究热点。传统的聚类算法包括基于划分的算法、基于层次的算法、基于密度的算法等。

聚类分析是一种重要的无监督学习方法,聚类分析的目的是寻找隐藏在数据中的结构,并按照某种相似性度量,尽可能地使具有相同性质的数据归于同一类。

K-means算法是机器学习领域十大经典算法之一。K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,即以数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方法得到迭代运算的调整规则。K-means算法以欧式距离作为相似度测度,它是求对应某一初始聚类中心向量V最优分类,使得评价指标J最小。算法采用误差平方和准则函数作为聚类准则函数。

基于密度峰值的快速聚类(Clustering by Fast Search and Find of DensityPeaks,CFSFDP)算法是一种基于密度的聚类算法,以高密度区域作为判断依据。CFSFDP算法首先通过使用一截断距离来计算每个点的局部密度,然后计算各数据点与局部密度高于它们的数据点之间的最小距离;然后根据计算出的每个点的局部密度和最小距离绘制决策图,接着在决策图中人工选取聚类的中心,之后将剩余的非聚类中心的数据点划分到与之距离最近的聚类中心所在的簇中;最后再将所得到的各个簇划分为簇核心和簇光晕,从而得到最终的聚类结果。这种非参数的方法,和传统方法比,适用于处理任何形状的数据集,而且无需提前设置簇的数量。

CLIQUE(CLustering In QUEst)是一种简单的基于网格的聚类方法,用于发现子空间中基于密度的簇。CLIQUE把每个维划分成不重叠的区间,从而把数据对象的整个嵌入空间划分成单元。先对每个属性进行N等分,整个数据空间就被划分为一个超长方体集合,对每个单元进行数据点计数,大于某个阈值S的单元称为稠密单元,然后对稠密单元进行连接就构成类。不同于其它方法,它可以自动地识别嵌入在数据子空间中的类。

粒度是数据库名词,计算机领域中粒度指系统内存扩展增量的最小值。粒度问题是设计数据仓库的一个最重要方面。粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度的主要问题是使其处于一个合适的级别,粒度的级别既不能太高也不能太低。低的粒度级别能提供详尽的数据,但要占用较多的存储空间和须要较长的查询时间。高的粒度级别能高速方便的进行查询。但不能提供过细的数据。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖北工业大学,未经湖北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010055555.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top