[发明专利]一种确定最佳聚类数的方法在审
申请号: | 201310739837.3 | 申请日: | 2013-12-26 |
公开(公告)号: | CN103714154A | 公开(公告)日: | 2014-04-09 |
发明(设计)人: | 周红芳;王啸;赵雪涵;段文聪;郭杰;张国荣;王心怡;何馨依 | 申请(专利权)人: | 西安理工大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 李娜 |
地址: | 710048*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 确定 最佳 聚类数 方法 | ||
1.一种确定最佳聚类数的方法,其特征在于:通过有效性指标Q(C)来评估数据集的聚类效果,聚类有效性指标Q(C)取最小值时所对应的聚类数为最佳聚类数。
2.如权利要求1所述的确定最佳聚类数的方法,其特征在于:所述有效性指标的确定为,首先计算类内紧凑度和类间分离度,再根据两者的一个线性组合来表示有效性指标;具体包括:
1)假设对于多维数据集DB,其中一个聚类划分为Ck={C1,C2,...,Ck},而此时聚类Ck的类内紧凑度是通过计算同一类中的任意两个数据对象之间距离的平方和得到的,用Scat(Ck)来表示,
同时,聚类Ck的类间分离度Sep(Ck)通过计算不同类中的任意两个数据对象之间距离的平方和而得到的,
在式(1)和式(2)中,X,Y表示两个数据对象,k表示数据集DB被划分成的聚类个数;
2)将欧式距离公式带入式(1)和式(2),再做变换得到:
其中,k表示聚类个数,xj表示聚类Ci中的一个数据对象,|Ci|表示聚类Ci中数据对象的个数;
3)对式(3)和式(4)进行线性组合,得式(5),
Q(Ck)=Scat(Ck)+β.Sep(Ck) (5)
其中,β为组合参数,用于平衡Scat(Ck)和Sep(Ck)在取值范围上的差异;在此,将数据集DB的聚类划分C看作一个变量,得到其定义域为{C1,C2,....,Cn},在此β的值为1;
4)在给定的数据集DB中,Scat(Ck)和Sep(Ck)具有相同的值域范围;在初始状态中,也就是当聚类数k为n时,由其式(1)可知,此时的Scat(Cn)值为0,而此时设:
由于Scat(Ck)是单调递增函数,而Sep(Ck)为单调递减函数,即可以得到当聚类数k为1时,Sep(C1)=0,Scat(C1)=M;所以采用的有效性指标Q(Ck)的形式可以表示为:
。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310739837.3/1.html,转载请声明来源钻瓜专利网。