[发明专利]一种基于密度的多层分步聚类方法在审
申请号: | 201910378047.4 | 申请日: | 2019-05-08 |
公开(公告)号: | CN110210517A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 董明刚;吴宇伦;敬超 | 申请(专利权)人: | 桂林理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 聚类 密度差异 不均匀 相邻簇 无向加权图 密度定义 密度聚类 起始对象 设置参数 数据分布 数据集 遍历 多层 集群 连通 敏感 | ||
本发明是根据普通的基于密度聚类算法提出的一种新的适用于数据分布非常不均匀,集群间密度差异大的聚类方法。该算法将每一个数据点当成一个节点,将每个点之间的距离看成是图的边,将数据集看成一个全连通的无向加权图。算法中通过一种新的密度定义方式,定义每个数据点的密度已经所有数据点的平均密度。在现有的基于密度的聚类方法中存在一些常见的缺陷和不足:算法必须设置参数、算法的行为对起始对象的密度很敏感、相邻簇如果密度差异大则不能很好的进行区分,本发明提出的方法只需要一个给定的参数,在聚类的过程中遍历的初始对象的密度对算法的结果基本上没什么影响,并且该算法可以区分任意形状、任意密度、分布哪怕十分不均匀的相邻簇。
技术领域
本发明属于机器学习中无监督学习方面聚类技术的领域,具体是一种基于密度的多层分步聚类方法。
背景技术
通过聚类,人们可以识别出密集区域和稀疏区域,并且发现全局分布模式和数据属性之间有趣的关系聚类分析可以作为一种独立的工具来获取数据分布,观察每个聚类的特征,重点分析特定的聚类。例如在商业上,聚类可以帮助市场分析人员从消费者数据库中区分出不同的消费群体来,并且概括出每一类消费者的消费模式或者说习惯。它作为数据挖掘中的一个模块,可以作为一个单独的工具以发现数据库中分布的一些深层的信息,并且概括出每一类的特点,或者把注意力放在某一个特定的类上以作进一步的分析;并且,聚类分析也可以作为数据挖掘算法中其他分析算法的一个预处理步骤。但是随着科学技术的不断发展,人们从生活中获取到的信息也变得越来越多样化,面对十分庞大并且复杂的数据,想要把它们合理地分类就变成一件麻烦的事情,相邻密度不平衡数据集的聚类的精确率一直一来都是亟待提高的,所谓密度不平衡的数据集指的是在同一个数据集中,不同的两个相邻的簇密度差异很大,在目前流行的算法中,基本没有一个可以很好的处理这一类的数据集。
发明内容
针对在聚类中可能出现的相邻密度不平衡数据的数据集、在聚类过程中对起始数据点密度敏感等问题,提出了一种分层次的聚类方式已经一种新的密度定义方法,去解决以上聚类问题。
本发明的技术方案:
针对以上问题,本发明提出相应的解决方式,首先,分层聚类的目的就是解决相邻或不相邻的簇的密度差异问题,本方法的聚类过程是自顶向下,自大到小的方向,在密度差异的簇存在时,无论从那个数据点开始遍历,真正开始聚类过程的点一定是一个密度大于平均密度的数据点。如果数据集本身所有簇的密度没有差异或者差异很小,那么密度大于平均点的节点一定处于簇的核心部分,通过这个对比就能很容易的区分核心点和边界点。而另一种情况,不同的簇之间有较大的密度差异,则一个密度大于平均密度的数据点肯定是处于大密度簇中的一部分,所以聚类的步骤必然是从先分配大密度簇开始。这样就很好的避免了将相邻差异密度的簇错误分类的情况,尤其是边界部分。
基于密度的多层分步聚类方法,其特征包括以下步骤:
步骤1,对于由n个待聚类j维数据:
X1(x11,x12…x1j),X2(x21,x22..x2j)…..Xn(xn1,xn2…xnl),将每个数据点看成一个节点,然后计算每两个节点之间的距离(欧氏距离),定义为相应节点之间的边的权值。这样一来就将整个数据集看成了一个全连通的无向加权图G(V,E)。
步骤2,通过新的密度定义方式D(Xi,Xj)计算出整个数据集的平均密度。
步骤3,计算当前数据点的密度。
步骤4,对比当前数据点的密度和平均密度,如果大于平均密度,则以该点为一个核心,向它周围的K个邻居遍历。如果邻居的密度也大于平均密度,则将其邻居也看做核心点,置于核心点的列队中。如果密度小于平均密度,则暂时将其看做噪声或是离群点,暂时不予处理。
步骤5,遍历步骤4中的核心点队列,重复步骤4中的算法,遍历到一个点的时候就将该点从队列中去除,直到一个队列的长度为0。至此一个簇的核心部分已经被侦测出来。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林理工大学,未经桂林理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910378047.4/2.html,转载请声明来源钻瓜专利网。