[发明专利]一种确定最佳聚类数的方法在审

专利信息
申请号: 201310739837.3 申请日: 2013-12-26
公开(公告)号: CN103714154A 公开(公告)日: 2014-04-09
发明(设计)人: 周红芳;王啸;赵雪涵;段文聪;郭杰;张国荣;王心怡;何馨依 申请(专利权)人: 西安理工大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 西安弘理专利事务所 61214 代理人: 李娜
地址: 710048*** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 确定 最佳 聚类数 方法
【权利要求书】:

1.一种确定最佳聚类数的方法,其特征在于:通过有效性指标Q(C)来评估数据集的聚类效果,聚类有效性指标Q(C)取最小值时所对应的聚类数为最佳聚类数。

2.如权利要求1所述的确定最佳聚类数的方法,其特征在于:所述有效性指标的确定为,首先计算类内紧凑度和类间分离度,再根据两者的一个线性组合来表示有效性指标;具体包括:

1)假设对于多维数据集DB,其中一个聚类划分为Ck={C1,C2,...,Ck},而此时聚类Ck的类内紧凑度是通过计算同一类中的任意两个数据对象之间距离的平方和得到的,用Scat(Ck)来表示,

Scat(Ck)=Σi=1kΣX,YCi||X-Y||2---(1)]]>

同时,聚类Ck的类间分离度Sep(Ck)通过计算不同类中的任意两个数据对象之间距离的平方和而得到的,

Sep(Ck)=Σi=1k(Σj=1,jik1|Ci|·|Cj|ΣXCi,YCj||X-Y||2)---(2)]]>

在式(1)和式(2)中,X,Y表示两个数据对象,k表示数据集DB被划分成的聚类个数;

2)将欧式距离公式带入式(1)和式(2),再做变换得到:

Scat(Ck)=2Σi=1k(|Ci|SSi-LSi2)---(3)]]>

Sep(Ck)2((k-1)Σi=1kSSi|Ci|-(Σi=1kLSi|Ci|)2+Σi=1kLSi2|Ci|2)---(4)]]>

其中,k表示聚类个数,xj表示聚类Ci中的一个数据对象,|Ci|表示聚类Ci中数据对象的个数;

3)对式(3)和式(4)进行线性组合,得式(5),

Q(Ck)=Scat(Ck)+β.Sep(Ck)              (5)

其中,β为组合参数,用于平衡Scat(Ck)和Sep(Ck)在取值范围上的差异;在此,将数据集DB的聚类划分C看作一个变量,得到其定义域为{C1,C2,....,Cn},在此β的值为1;

4)在给定的数据集DB中,Scat(Ck)和Sep(Ck)具有相同的值域范围;在初始状态中,也就是当聚类数k为n时,由其式(1)可知,此时的Scat(Cn)值为0,而此时设:

Sep(Cn)=2(n.ΣxDBx2-(ΣxDBx)2)=M---(6)]]>

由于Scat(Ck)是单调递增函数,而Sep(Ck)为单调递减函数,即可以得到当聚类数k为1时,Sep(C1)=0,Scat(C1)=M;所以采用的有效性指标Q(Ck)的形式可以表示为:

Q(Ck)=1M(Scat(Ck)+Sep(Ck))---(7)]]>

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安理工大学,未经西安理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310739837.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top