[发明专利]一种基于最小生成树与初始聚类中心的聚类算法在审
申请号: | 201711277329.2 | 申请日: | 2017-12-06 |
公开(公告)号: | CN107766897A | 公开(公告)日: | 2018-03-06 |
发明(设计)人: | 马燕;吕晓波;李顺宝;黄慧;张玉萍 | 申请(专利权)人: | 上海师范大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海精晟知识产权代理有限公司31253 | 代理人: | 冯子玲 |
地址: | 200234 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最小 生成 初始 中心 算法 | ||
技术领域
本发明涉及机器学习和数据挖掘领域,尤其涉及一种基于最小生成树与初始聚类中心的聚类算法。
背景技术
聚类的目的是为了发现物体类别,使得同一类中的物体较为相似,而属于不同类的物体则不相似。在诸如模式识别、机器学习和数据挖掘等不同领域,聚类是一个较为活跃的研究课题。针对不同的应用,目前已经提出了各种聚类算法。
由Forgy提出的k-means聚类算法属于基于划分的聚类算法,由于k-means算法依赖于初始聚类中心的选取,并且对噪声数据较为敏感,使得利用k-means算法的聚类结果容易产生局部最优以及聚类结果不稳定等问题。层次聚类算法是通过对数据集进行分解从而完成聚类。在层次聚类算法中,用户可以选择一个约束条件作为聚类的结束条件,不同的约束条件可能导致不同的聚类结果。该聚类算法的聚类过程清晰明了,但算法的时间代价非常昂贵。谱聚类算法是一种建立在谱图理论基础上的聚类方法,能在任意形状的样本空间上聚类且收敛于全局最优解,但该方法的聚类效果依赖于相似矩阵,不同的相似矩阵得到的最终聚类结果可能不同。
将数据集用最小生成树表示,对于簇边界处的一些几何变化具有不变性,因此,簇的形状对于基于最小生成树的聚类算法的性能影响较小。2002年Ying Xu,Victor Olman等人提出了一种基于最小生成树的迭代方法,该方法旨在利用最小生成树使簇内距离和收敛于一个最小值,该方法对于球状数据集处理结果较好,但不能正确聚类线性数据集;O.Grygorash等人在2008年提出了HEMST和MSDR算法,HEMST是基于层次的最小生成树聚类算法,由于该方法需要用代表点来代替簇,所以不能处理带环状簇的数据集且对噪声点异常敏感;MSDR是基于最小生成树的最大方差最小的算法,但该方法对噪声点敏感。
现实情况下,数据集形状各式各样。例如,在处理地理信息时,山脉、河流等不同的地形往往呈现出不同的形状。然而,传统的聚类算法往往受限于数据集的形状,比如k-means算法适用于球状数据集,对于非球状数据集则效果较差。本发明提出一种基于最小生成树与初始聚类中心的聚类算法,能处理多种形状的数据集。
因此,本领域的技术人员致力于开发一种基于最小生成树与初始聚类中心的聚类算法。对数据点构建最小生成树,并且定义测地距离,根据测地距离选出K个初始聚类中心,并且在由初始聚类中心构成的路径上,挑选出K-1条边并删除,从而得到K个子树,至此聚类结束。首先,对于数据集构造最小生成树,并利用最小生成树上数据点间的路径来计算其测地距离,从而将原来的欧几里德距离替换为测地距离,使得初始聚类中心选取方法能较好地适应非球状数据集;其次,将最小生成树聚类算法与初始聚类中心选取加以结合,将待删除边限定在初始聚类中心之间的路径上,并且通过构成路径上边的密度与距离的综合值来准确找到待删除边,从而进一步提高聚类准确率,同时也避免了数据集中噪声的干扰。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是结合数据点间的测地距离来确定数据集的初始聚类中心,使初始聚类中心的选取能较好地适应非球状数据集;其次,本发明将待基于最小生成树的聚类算法中,待删除边限定在初始聚类中心之间的路径上,从而使得聚类结果不受噪声干扰,进一步提高聚类的准确率。
为实现上述目的,本发明提供了一种基于最小生成树与初始聚类中心的聚类算法,包括以下步骤:
S1:输入待聚类的数据集D及其类别数K;
S2:构造数据集的最小生成树TD,并计算最小生成树TD中任意两个节点间的测地距离;
S3:选取初始聚类中心;
S4:构造初始聚类中心的最小生成树Ti;
S5:断开数据集的最小生成树TD的K-1条边。
进一步地,步骤S1输入待聚类的数据集D及其类别数K,其具体步骤为:输入待聚类为K个类别的数据集D,该数据集共有n个数据点di,D={di|i=1,2,…,n}。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海师范大学,未经上海师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711277329.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于色相聚类的光谱降维方法
- 下一篇:基于SVM的三分类情绪概率判断方法