[发明专利]一种基于毗邻网格搜索的聚类方法在审
申请号: | 201910997760.7 | 申请日: | 2019-10-21 |
公开(公告)号: | CN110781943A | 公开(公告)日: | 2020-02-11 |
发明(设计)人: | 李志猛;王国锋;赵坚;黄钦 | 申请(专利权)人: | 天津城建大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 12201 天津市北洋有限责任专利代理事务所 | 代理人: | 李素兰 |
地址: | 300384*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 胞元 网格 光晕 聚类 类簇 毗邻 去噪 原始数据集 遍历算法 多维空间 复杂边界 聚类过程 快速寻找 数据特性 网格聚类 网格搜索 用户需求 有效识别 原始数据 算子 样本集 维度 优化 | ||
本发明公开一种基于毗邻网格搜索策略的聚类方法,首先,对原始数据进行网格划分:利用多维空间网格将原始数据集划分到有限个胞元中,必要时进行去噪处理;然后,对划分后的数据进行网格聚类:利用光晕阈值对去噪后的网格进行处理,将其划分为光晕胞元和核心胞元;建立毗邻网格算子,用于快速寻找一个胞元的毗邻胞元;通过核心胞元聚类和光晕胞元划分两个步骤实现聚类过程,通过遍历算法将所有核心胞元划分为若干个类簇,基于胞元距离将光晕胞元划分至已有类簇;最后,根据数据特性和用户需求进行聚类优化。与现有技术相比,本发明针对快速增长的样本集维度能够提出了新的聚类方法,能够有效识别具有复杂边界形状的类簇。
技术领域
本发明涉及无监督模式识别和数据挖掘技术领域,尤其是一种基于网格的聚类方法。
背景技术
随着大数据和网络技术的发展,各学科和领域出现大量的数据过剩,因此聚类分析已经成为一个越来越重要的技术。将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。随着聚类在各领域的应用,对聚类算法提出了更高的鲁棒性要求。在诸多应用中以下特定数据集越来越受关注:(1)有噪声的数据集;(2)大规模数据集;(3)高维数据集;(4)具有任意形状簇的数据集;(5)类间密度差异较大的数据集;(6)类间高度重叠的数据集。
目前,主流的聚类方法主要包括:基于划分的聚类方法、基于密度的聚类方法、基于层次的聚类方法和基于网格的聚类方法等。其中,基于划分的聚类方法只能发现超球状的簇,基于密度的聚类方法很难处理具有较高噪声水平和高维数据集,基于层次的聚类方法处理噪声数据和类间重叠数据的能力较差。此外,以上聚类方法均是通过直接处理数据点而实现的聚类,因此当对大规模数据集进行聚类时,算法的运行时间将显著增加,很难适用于工程实际。与之相比,基于网格的聚类方法将数据集划分为若干网格单元,其数量远小于数据集中样本点的数量,使算法运行时间大大提高,且不受样本点数的影响。不同的网格聚类算法对划分后的网格处理方法不同,STING采用自上而下的查询方法,即首先设定一个查询条件,从某一层开始,将满足查询条件的某一层网格返回,而不满足查询条件的网格则被删除并不在考虑,将返回的网格延伸至下一层继续执行查询操作,重复上述步骤直至底层。可见此过程是一个不断删除不满足查询条件的网格的过程,如果遇到边界复杂的类簇,由于上层网格分辨率低,无法对边界形状进行识别,因此会出现误删除现象,导致聚类结果出现失真。WaveCluster把数据沿某一方向的分布密度看作若干个一维信号,通过小波分解对密度变化频繁的区域进行分离,由此完成对类簇边界的检测从而达到聚类的目的。容易看出,算法中一维信号的数量随样本集维度呈指数增加,因此当维度较大时,该算法无法进行。CLIQUE是通过从一个密集单元出发,沿着各个维度以一种“贪婪生长”的方式把所有连通的密集单元找到,最终形成类簇。这种方法只能找到球状簇,对于非球状簇,算法倾向于把它拆解成多个相连的球状簇。OptiGrid的侧重点在如何构建多维样本集的最优划分上,至于划分后的网格空间,算法简单的认为一些独立的密集网格即是类簇。该方法的聚类效果严重依赖于投影算法和由它产生的网格划分结果。通过上述分析,目前的网格聚类算法在网格的处理上存在以下几个问题:(1)具有复杂边界形状的类簇无法有效识别;(2)算法复杂度随样本集维度的快速增长无法解决;(3)多个类簇边界相连时,算法无法有效地分辨,而倾向于把它们归为一个类簇。
因此,需要提出一种新的聚类算法同时有效地解决上述问题。
发明内容
针对现有聚类方法的不足以及适应上述各种特定数据集的聚类要求,本发明提出一种基于毗邻网格搜索的聚类方法,利用自适应网格划分方法将原始数据集划分至有限个网格单元(简称胞元)中,建立毗邻网格算子并利用其实现胞元的聚类分析,特定情况下可进行选择性的聚类优化以改善聚类质量。
本发明旨在提出一种基于毗邻网格搜索策略的聚类方法,该方法包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津城建大学,未经天津城建大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910997760.7/2.html,转载请声明来源钻瓜专利网。