[发明专利]基于熵权重的全局K-均值聚类方法无效

申请号：	201110224684.X	申请日：	2011-08-05
公开（公告）号：	CN102254033A	公开（公告）日：	2011-11-23
发明（设计）人：	于昕;焦李成;惠转妮;刘芳;曹宇;吴建设;王达;王爽;李阳阳	申请（专利权）人：	西安电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	陕西电子工业专利中心 61205	代理人：	张问芬;王品华
地址：	710071***	国省代码：	陕西;61
权利要求书：	查看更多	说明书：	查看更多
摘要：	一种基于熵权重的全局K-均值聚类方法。其实现过程为：首先将数据聚为一类，其最佳聚类中心为所有数据的质心，接着通过计算求出目标函数最小的数据点并将该数据点作为下一类的初始聚类中心，再利用带有熵权重的K-均值方法迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行更新迭代直到聚完设定的K类为止，这样就完成了将所有数据点聚到K类的整个过程。本发明.将全局K-均值方法与带有熵属性的K-均值相结合，构造了一种新的基于熵权值的全局K-均值聚类方法，聚类结果十分的稳定，通过与几种K-均值类聚类方法的实验结果进行比较，证明了本发明得到的聚类方法的有效性和鲁棒性。
搜索关键词：	基于权重全局均值方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于熵权重的全局K-均值聚类方法，其特征在于：首先将数据聚为一类，其最佳聚类中心为所有样本的质心，接着通过计算求出目标函数最小的样本点并将该数据点作为下一类的初始最优聚类中心，再利用基于熵权重的“K-均值方法”进行迭代更新得到聚为两类时的最佳聚类中心，采用同样的方法依次增加聚类中心数进行聚类，直到聚为设定的K类为止，从而完成将所有数据点聚为K类的整个过程，其具体实现步骤如下：(1)输入多维样本点x_ij，1≤i≤N，1≤j≤M和聚类个数K，其中N表示样本的个数，x_ij表示第i个样本点的第j个属性；(2)初始化聚类个数k＝1初始化第1类的特征权重值为D和d表示样本的特征属性个数，当k＝1时，即聚为一类时，最优的聚类中心是所有样本的质心，所以把所有样本点的质心即均值作为第一类的初始聚类中心，即(3)进行k+1类聚类1)找到第k+1类的初始最优聚类中心：①前k类的聚类中心(Z₁，…，Z_k)和特征权值[λ₁，λ₂，…，λ_k]已求出，将(Z₁，…，Z_k)作为前k类的最优初始中心；②将所有样本点依次作为第k+1个初始中心，且初始化第k+1类的特征权重值为③以(Z₁，…，Z_k，X_i)X_i∈X作为聚类中心，对所有样本点进行N次聚类操作：第一步：每次计算出每个样本点和每个聚类中心之间的熵权重欧式距离，通过下式将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：whi=1ifΣj=1Dλk,j(zk,j-xi,j)2≤Σj=1Dλh,j(zh,j-xi,j)2,1≤h≤k+10otherwise---(1)]]>式(1)中参数β＝1.8w_hi表示第i个数据是否属于h类，z_h，j表示第h类聚类中心的第j个属性的值，λ_k，j表示第k个类别第j个属性的权重值，k表示类别，h表示小于类别k的变量；第二步：将聚类中心(Z₁，…，Z_k，X_i)，w_hi和[λ₁，λ₂，…，λ_k+1]代入以下目标函数：F(W,Z,Λ)=Σh=1k+1[Σi=1NΣj=1Mwhiλhj||zhj-xij||2+γΣj=1Mλhjlogλhj]---(2)]]>其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的熵权值的实数矩阵，将得到的值代入之后得出J(Z₁，…，Z_k，X_i)，γ是一个正参数，取为γ＝0.5；④选出第k+1类的初始最优中心，把每个F(Z₁，…，Z_k，X_i)进行比较，找出最小的F(Z₁，…，Z_k，X_i)，则相应的X_i则是k+1类的初始最优聚类中心，即Z_k+1；2)对得到的聚类中心(Z₁，…，Z_k，Z_k+1)进行优化更新：①将所有样本点进行聚类，计算出每个样本点和每个聚类中心之间的特征权重欧式距离；通过式(1)将样本点的熵权重欧式距离进行比较，然后把样本点划分到距离最小的那一类：②将更新的将得到的w_hi带入下面的式子更新聚类中心z_hj：zhj=Σi=1NωhixijΣi=1Nωhi,1≤h≤k+1---(3)]]>③再将更新得到的w_hi和z_hj代入下式来更新每一个样本的特征权重值λ_hj：λhj=exp(-Dhjγ)Σt=1Mexp(-Dhtγ)]]>其中Dhj=Σi=1Nwhi(zhj-xij),1≤h≤k+1---(4)]]>④将更新得到的w_hi，z_hj和λ_hj代入到以下目标函数进行计算：FT(W,Z,Λ)=Σh=1k+1[Σi=1NΣj=1Mwhiλhj||zhj-xij||2+γΣj=1Mλhjlogλhj]]]>其中，W＝[w_i，j]是一个K×N的整数矩阵，Z＝[Z₁，Z₂，…，Z_k]是代表聚类中心的矩阵，Λ＝[λ_l，i]是一个K×D的熵权值的实数矩阵，将得到的值代入之后得出F^T，其中T代表运行更新次数，F^T则代表第T次运行得到的目标函数值；⑤目标函数值如果满足|J^T-J^T-1|≤10e-4，则执行步骤(3)进行k+1聚类，否则，返回步骤2)对聚类中心进行更新优化直到满足上述条件；(4)判断是否满足终止条件判断k+1＞K是否成立，若成立则方法结束，否则返回第(3)步进行k+1类聚类。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于西安电子科技大学，未经西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201110224684.X/，转载请声明来源钻瓜专利网。

上一篇：一种基于空间线索的音频信息隐写方法
下一篇：用于煤矿皮带探伤检测的数据采集补偿校正方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于熵权重的全局K-均值聚类方法无效

专利文献下载