[发明专利]面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法在审
申请号: | 202110216299.4 | 申请日: | 2021-02-26 |
公开(公告)号: | CN113159104A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 张亚玲;蔡忱 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 噪声 抑制 有效性 指标 确定 最佳 个数 方法 | ||
本发明公开了一种面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,具体按照以下步骤实施:步骤1、确定待聚类的实际问题的聚类个数范围,这里的实际问题可以是当前大规模在线教育所产生的在线学习数据、网络购物所产生的大量商品交易数据以及智能交通所产生的大量交通信息等(但不限于此),并获得k个初始聚类中心集合;步骤2、重新计算聚类后簇的质心,更新聚类中心集合,然后重新划分簇;步骤3、如果聚类中心不再发生变化,则代表聚类过程结束,根据面向噪声抑制的聚类有效性指标计算相似因子;步骤4、求得最佳聚类结果。本发明能够在噪声数据环境下更准确地进行聚类个数确定。
技术领域
本发明属于数据挖掘技术领域,具体涉及一种面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法。
背景技术
数据挖掘在大数据分析中越来越流行,它能够满足人们对于深层次的信息的需求。聚类是数据挖掘中最热门的研究方向之一,它指的是将数据分组为多个簇的过程,以便使相同的簇中的数据尽可能相似,而不同簇的数据尽可能不同。作为一种传统的聚类算法,K-means算法由于其简单、快速、容易实现的特点以及它在处理数据信息量较大的问题时依然可以保持良好的伸缩性和高效性,因此被广泛的应用。虽然K-means算法原理比较简单,容易实现,但是传统的K-means算法存在聚类个数k的选择问题,这个需要先验知识的值的设定会对结果造成巨大的影响,但是由于在处理实际问题的过程中,往往是缺少足够的先验知识的,因此就需要用户寻找其他的方法帮助进行这个k的确定。因为缺少严格的数学准则,如何针对每个不同的问题选取一个与之对应的合适的k值引发了广泛的讨论。目前已经有许多专家和学者提出了检验聚类有效性的指标函数,比如Dunn指标、DB指标、CH指标等,他们使用这些指标函数去计算最佳聚类个数kopt,但是由于噪声环境与非噪声环境的数据内部结构存在着一定的差异性,在噪声环境下聚类有效性指标的准确性通常会降低。因此发明一种适应具有噪声数据的环境下的聚类有效性指标具有重要的实际应用意义。
发明内容
本发明的目的是提供一种面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,能够在噪声数据环境下更准确地进行聚类个数确定。
本发明所采用的技术方案是,面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,具体按照以下步骤实施:
步骤1、确定待聚类的实际问题的聚类个数范围,这里的实际问题包括当前大规模在线教育所产生的在线学习数据、网络购物所产生的大量商品交易数据以及智能交通所产生的大量交通信息,并获得k个初始聚类中心集合;
步骤2、重新计算聚类后簇的质心,更新聚类中心集合,然后重新划分簇;
步骤3、如果聚类中心不再发生变化,则代表聚类过程结束,根据面向噪声抑制的聚类有效性指标计算相似因子;
步骤4、求得最佳聚类结果。
本发明的特点还在于,
步骤1具体按照以下步骤实施:
步骤1.1、对待聚类的实际问题形成的数据集X确定聚类个数的范围为k,n为数据集中记录的总个数,设置k的初始值为2;
步骤1.2、以样本数据点xi为圆心,i=1,2,...n,ε为半径区域作为样本点xi的邻域,ε=α×AveDist,0≤α≤1,AveDist为所有区域内样本点到圆心的平均距离,然后计算每个点邻域内所包含的样本数据点个数p(xi,ε),即作为xi对应的密度参数p(xi,ε);
步骤1.3、由所有的xi及其对应的密度参数p(xi,ε)构成集合S,选择集合S中密度参数最大的样本数据点作为第一个初始聚类中心点,将该初始聚类中心放入初始聚类中心集合c中,同时从集合S中删除该初始聚类中心以及该初始聚类中心邻域内的所有样本点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110216299.4/2.html,转载请声明来源钻瓜专利网。