[发明专利]基于熵权重的全局K-均值聚类方法无效
申请号: | 201110224684.X | 申请日: | 2011-08-05 |
公开(公告)号: | CN102254033A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 于昕;焦李成;惠转妮;刘芳;曹宇;吴建设;王达;王爽;李阳阳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 张问芬;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种基于熵权重的全局K-均值聚类方法。其实现过程为:首先将数据聚为一类,其最佳聚类中心为所有数据的质心,接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心,再利用带有熵权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止,这样就完成了将所有数据点聚到K类的整个过程。本发明.将全局K-均值方法与带有熵属性的K-均值相结合,构造了一种新的基于熵权值的全局K-均值聚类方法,聚类结果十分的稳定,通过与几种K-均值类聚类方法的实验结果进行比较,证明了本发明得到的聚类方法的有效性和鲁棒性。 | ||
搜索关键词: | 基于 权重 全局 均值 方法 | ||
【主权项】:
1.一种基于熵权重的全局K-均值聚类方法,其特征在于:首先将数据聚为一类,其最佳聚类中心为所有样本的质心,接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心,再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心,采用同样的方法依次增加聚类中心数进行聚类,直到聚为设定的K类为止,从而完成将所有数据点聚为K类的整个过程,其具体实现步骤如下:(1)输入多维样本点xij,1≤i≤N,1≤j≤M和聚类个数K,其中N表示样本的个数,xij表示第i个样本点的第j个属性;(2)初始化聚类个数k=1初始化第1类的特征权重值为D和d表示样本的特征属性个数,当k=1时,即聚为一类时,最优的聚类中心是所有样本的质心,所以把所有样本点的质心即均值作为第一类的初始聚类中心,即(3)进行k+1类聚类1)找到第k+1类的初始最优聚类中心:①前k类的聚类中心(Z1,…,Zk)和特征权值[λ1,λ2,…,λk]已求出,将(Z1,…,Zk)作为前k类的最优初始中心;②将所有样本点依次作为第k+1个初始中心,且初始化第k+1类的特征权重值为③以(Z1,…,Zk,Xi)Xi∈X作为聚类中心,对所有样本点进行N次聚类操作:第一步:每次计算出每个样本点和每个聚类中心之间的熵权重欧式距离,通过下式将样本点的熵权重欧式距离进行比较,然后把样本点划分到距离最小的那一类:w hi = 1 if Σ j = 1 D λ k , j ( z k , j - x i , j ) 2 ≤ Σ j = 1 D λ h , j ( z h , j - x i , j ) 2 , 1 ≤ h ≤ k + 1 0 otherwise - - - ( 1 ) ]]> 式(1)中参数β=1.8whi表示第i个数据是否属于h类,zh,j表示第h类聚类中心的第j个属性的值,λk,j表示第k个类别第j个属性的权重值,k表示类别,h表示小于类别k的变量;第二步:将聚类中心(Z1,…,Zk,Xi),whi和[λ1,λ2,…,λk+1]代入以下目标函数:F ( W , Z , Λ ) = Σ h = 1 k + 1 [ Σ i = 1 N Σ j = 1 M w hi λ hj | | z hj - x ij | | 2 + γ Σ j = 1 M λ hj log λ hj ] - - - ( 2 ) ]]> 其中,W=[wi,j]是一个K×N的整数矩阵,Z=[Z1,Z2,…,Zk]是代表聚类中心的矩阵,Λ=[λl,i]是一个K×D的熵权值的实数矩阵,将得到的值代入之后得出J(Z1,…,Zk,Xi),γ是一个正参数,取为γ=0.5;④选出第k+1类的初始最优中心,把每个F(Z1,…,Zk,Xi)进行比较,找出最小的F(Z1,…,Zk,Xi),则相应的Xi则是k+1类的初始最优聚类中心,即Zk+1;2)对得到的聚类中心(Z1,…,Zk,Zk+1)进行优化更新:①将所有样本点进行聚类,计算出每个样本点和每个聚类中心之间的特征权重欧式距离;通过式(1)将样本点的熵权重欧式距离进行比较,然后把样本点划分到距离最小的那一类:②将更新的将得到的whi带入下面的式子更新聚类中心zhj:z hj = Σ i = 1 N ω hi x ij Σ i = 1 N ω hi , 1 ≤ h ≤ k + 1 - - - ( 3 ) ]]> ③再将更新得到的whi和zhj代入下式来更新每一个样本的特征权重值λhj:λ hj = exp ( - D hj γ ) Σ t = 1 M exp ( - D ht γ ) ]]> 其中D hj = Σ i = 1 N w hi ( z hj - x ij ) , 1 ≤ h ≤ k + 1 - - - ( 4 ) ]]> ④将更新得到的whi,zhj和λhj代入到以下目标函数进行计算:F T ( W , Z , Λ ) = Σ h = 1 k + 1 [ Σ i = 1 N Σ j = 1 M w hi λ hj | | z hj - x ij | | 2 + γ Σ j = 1 M λ hj log λ hj ] ]]> 其中,W=[wi,j]是一个K×N的整数矩阵,Z=[Z1,Z2,…,Zk]是代表聚类中心的矩阵,Λ=[λl,i]是一个K×D的熵权值的实数矩阵,将得到的值代入之后得出FT,其中T代表运行更新次数,FT则代表第T次运行得到的目标函数值;⑤目标函数值如果满足|JT-JT-1|≤10e-4,则执行步骤(3)进行k+1聚类,否则,返回步骤2)对聚类中心进行更新优化直到满足上述条件;(4)判断是否满足终止条件判断k+1>K是否成立,若成立则方法结束,否则返回第(3)步进行k+1类聚类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110224684.X/,转载请声明来源钻瓜专利网。