[发明专利]基于子类数目自动确定的改进密度峰值聚类方法及系统在审
申请号: | 201810502889.1 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108734221A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 许鸿文;薛印玺;陈雯;李羚;殷蔚明;谢靖 | 申请(专利权)人: | 中国地质大学(武汉) |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 武汉知产时代知识产权代理有限公司 42238 | 代理人: | 郝明琴 |
地址: | 430000 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 算法 聚类 子类 自动确定 样本点 改进 核心思想 聚类结果 聚类中心 人为干预 分布图 无人为 自动性 准确率 迭代 | ||
本发明提供了一种基于子类数目自动确定的改进密度峰值聚类方法及系统,其核心思想是:首先对样本点的综合量γ的分布图进行处理,获取最有可能成为聚类中心点的若干样本点;然后以这些得到的样本点作为DBSCAN算法每次迭代的初始核心点进行DBSCAN聚类,最终获得聚类子类的准确数目。实施本发明的基于子类数目自动确定的改进密度峰值聚类方法及系统具有以下有益效果:AC‑CFSFDP算法可以在无人为介入的情况下,自动得到与CFSFDP算法相同的聚类结果;AC‑CFSFDP算法只需运行一次便可以得到正确结果,从而AC‑CFSFDP算法在实现CFSFDP算法自动性的基础上克服人为干预对它造成的错误,提高了CFSFDP的准确率。
技术领域
本发明涉及机器学习领域中的快速密度峰值聚类算法,针对快速密度峰值聚类算法中聚类子类数量需要人为根据经验指定的问题,提出了一种基于子类数目自动确定的改进密度峰值聚类方法及系统。
背景技术
在大数据时代,人们迫切需要从庞杂的大型数据库系统中发现有用知识和信息。数据挖掘通过依赖其包含的各种数据自动分析算法,成为数据发现过程中的最关键工作。不同的数据挖掘方法可以提取出内在间具有不同关系的数据。聚类是一类传统的具有代表性的数据挖掘算法。它根据多维数据呈现出来的特点将一组数据划分为几个不同类别。属于同一类别的数据之间具有较强的相似性,而属于不同类别的数据间具有较强的差异性。聚类在发展过程中主要形成了以下几种:划分式聚类算法、层次化聚类算法、基于密度、网格或模型的聚类算法。
基于密度的聚类算法区别于其它类聚类算法的根本是:它是基于数据的空间信息进行聚类。通过分析数据在空间中分布特点,它能够克服其它算法只能获得“类圆形”簇的缺点。这类算法进行聚类的核心思想是,将区域中密度较大的点加入到与它距离相近的类别中。DBSCAN是一种代表性的基于密度的聚类方法。它通过引入空间索引技术,能够在发现任意形状簇的基础上具有速度快、有效排除噪声点等优点。但该算法依然存在着如下缺点:对输入参数敏感且输入参数选择困难;计算量大,需要较大的内存支持;针对空间分布不均匀的数据集,聚类效果较差。尽管有许多学者对DBSCAN算法进行了多方面的改进,例如OPTICS、DENCLUE、GDBSCAN等,但是这些改进算法都不能够兼顾DBSCAN所有缺点。
2014年,Alex Rodriguez在《Science》上提出了一种新型、简洁、高效的聚类算法CFSFDP。该算法不仅保留了基于密度聚类算法的优点,而且所需人为设定参数少、计算速度快、思路直接明了,易于理解。CFSFDP算法自从提出后,便成为数据挖掘领域研究的焦点并得到了广泛的应用。主要应用领域包括:社区发现、图像检索、离群检测、中文自动文摘、文本聚类、模式分类、图像分割等领域。
但CFSFDP算法不能够自动确定聚类子类数目。CFSFDP算法的子类数目只能够通过经验进行主观估测。而且当聚类中心点和非聚类中心点比较接近且连续时,仅凭人的主观估测是很难准确确定聚类子类的数目。聚类数目的错误确定,将造成中心点选取失效、聚类准确率降低、聚类效果较差等问题。
针对以上问题,本文提出一种精确确定聚类数目的快速搜索和发现密度峰值聚类算法 (Accurately determine the number of clusters of fast search anddiscovery of density peak clustering algorithm,AC-CFSFDP)。本算法针对CFSFDP算法依靠人的主观估测进行聚类子类数目确定的问题,实现了聚类子类数目的自动确认。实验结果表明,算法准确地实现了聚类子类数目的计算,聚类效果良好。
发明内容
本发明要解决的技术问题在于,CFSFDP算法只提出了局部密度及距离相对较大的样本点为聚类中心点,并没有明确确定聚类中心点的数目,在用户在面对未知复杂数据集时,很难给出聚类中心点的适当取值,从而导致聚类结果与实际情况相距甚远。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国地质大学(武汉),未经中国地质大学(武汉)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810502889.1/2.html,转载请声明来源钻瓜专利网。