[发明专利]面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法在审
申请号: | 202110216299.4 | 申请日: | 2021-02-26 |
公开(公告)号: | CN113159104A | 公开(公告)日: | 2021-07-23 |
发明(设计)人: | 张亚玲;蔡忱 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 王敏强 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 噪声 抑制 有效性 指标 确定 最佳 个数 方法 | ||
1.面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,其特征在于,具体按照以下步骤实施:
步骤1、确定待聚类的实际问题的聚类个数范围,实际问题包括当前大规模在线教育所产生的在线学习数据、网络购物所产生的大量商品交易数据以及智能交通所产生的大量交通信息,并获得k个初始聚类中心集合;
步骤2、重新计算聚类后簇的质心,更新聚类中心集合,然后重新划分簇;
步骤3、如果聚类中心不再发生变化,则代表聚类过程结束,根据面向噪声抑制的聚类有效性指标计算相似因子;
步骤4、求得最佳聚类结果。
2.根据权利要求1所述的面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1、对待聚类的实际问题形成的数据集X确定聚类个数的范围为k,n为数据集中记录的总个数,设置k的初始值为2;
步骤1.2、以样本数据点xi为圆心,i=1,2,...n,ε为半径区域作为样本点xi的邻域,ε=α×AveDist,0≤α≤1,AveDist为所有区域内样本点到圆心的平均距离,然后计算每个点邻域内所包含的样本数据点个数p(xi,ε),即作为xi对应的密度参数p(xi,ε);
步骤1.3、由所有的xi及其对应的密度参数p(xi,ε)构成集合S,选择集合S中密度参数最大的样本数据点作为第一个初始聚类中心点,将该初始聚类中心放入初始聚类中心集合c中,同时从集合S中删除该初始聚类中心以及该初始聚类中心邻域内的所有样本点;
步骤1.4、重复步骤1.3,直到获得包含k个初始聚类中心的集合c。
3.根据权利要求2所述的面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1、将集合c中的k个初始聚类中心形成k个簇Ci,计算所述步骤1.1中数据集X中所有数据点到已有聚类中心之间的距离,选择离每个点最近的聚类中心,将每个点放入对应的簇中;
步骤2.2、重新计算聚类后的每个簇的质心,更新聚类中心集合c={ci|i=1...k},ci为每个簇的质心,然后再次执行步骤2.1重新进行簇的划分。
4.根据权利要求3所述的面向噪声抑制的聚类有效性指标确定最佳聚类个数的方法,其特征在于,所述步骤3具体按照以下步骤实施:
步骤3.1、如果聚类中心不再发生变化,则代表聚类过程结束,计算相似因子,即步骤3.2~步骤3.6,否则跳转至步骤2.1;
步骤3.2、对于聚类划分结果中的每个簇Ci,计算簇内相似因子Sim_in(Ci),以及簇间分离因子Sim_on(Ci);
步骤3.3、计算数据集X的全局聚类中心g以及每个簇中距离全局聚类中心g的最短距离Dist_be(sit)C,然后计算整个数据空间的平均距离Ave_distance;
步骤3.4、计算簇间噪声距离抑制函数F(Ci),簇内噪声距离抑制函数G(Ci);
步骤3.5、已知每个簇Ci的簇内相似因子Sim_in(Ci)和簇间分离因子Sim_on(Ci),计算簇Ci的全局簇内相似因子为Sim_all_in(Ci)以及簇Ci的全局簇间相似因子为Sim_all_on(Ci);
步骤3.6、计算整个数据集的平均相似因子Ave_Sim,将平均相似因子Ave_Sim结果记录为F(k),如果则退出循环,否则,k的值加1,跳转到步骤1.2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110216299.4/1.html,转载请声明来源钻瓜专利网。