[发明专利]基于熵权重的全局K-均值聚类方法无效
申请号: | 201110224684.X | 申请日: | 2011-08-05 |
公开(公告)号: | CN102254033A | 公开(公告)日: | 2011-11-23 |
发明(设计)人: | 于昕;焦李成;惠转妮;刘芳;曹宇;吴建设;王达;王爽;李阳阳 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 张问芬;王品华 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 权重 全局 均值 方法 | ||
技术领域
本发明涉及一种新的聚类方法。具体地说是提出了一种基于熵权重的全局K-均值聚类方法,用于解决聚类中常见的K-均值类方法的聚类准确度不高和聚类结果不稳定的问题,在提高了方法的聚类准确度的同时得到了很稳定的聚类结果。
背景技术
聚类就是将一组样本划分到各个类中的一个过程,从而使得类内距离最小化,类间距离最大化,即同一类中的样本尽可能的相似,而不同类中的样本尽可能的不同。聚类在数据挖掘,统计学,机器学习,空间数据库技术,生物学以及市场营销中起着很重要的作用。
近些年,在聚类的很多应用领域中数据变得越来越复杂。一个目标经常会用很多个属性特征来描述,而对于聚类而言,有些属性起着比较重要的作用,而另外一些属性则只有很小的作用,甚至不影响对目标的聚类。目前很多(基于距离的)聚类方法对于这些复杂的多维数据聚类不是很有效的。这是因为K-均值类方法采用的是单纯的欧式距离度量方法,即计算每个对象到各个聚类中心的欧式距离,离哪个聚类中心最近则属于哪一类,很明显这种计算方法将目标的每个属性对聚类的重要性简单的视为相等,而实际上是各不相同的,所以特别当处理的是多维复杂数据的时候,这种传统的K-均值方法就不是很有效了。
目前主要有两种技术可以解决这个问题:1.特征转移技术;2.特征权重技术也可以称为特征选择技术。一般来说,特征转移技术对于存在大量属性对于聚类无关的这种情况不适应。特征权重技术即不同属性对于聚类的重要性和不同样本对于每一类所起的作用都是不同的。它主要分为两个方向:有监督的方法和无监督的方法。在早期,提出了很多有监督特征权重的方法。近些年来,提出了很多无监督的特征权重方法。因为这些方法很多都是基于K-均值的处理过程,所以基本都是K-均值类方法。不同的是,在K-均值的每次迭代中,都引入了计算属性权重值的步骤来优化权值和建立类别。
我们主要研究了无监督的特征权重技术,首先对其中一种经典的LAW-K-均值(局部属性权值K-均值)方法进行深入研究。LAW-K-均值方法是在K-均值基础上的一种局部属性权重方法。为了确定目标属于哪一类,该方法采用权重差异测试方法来对每一类的重要属性进行分组。之后又有一些学者对该方法进行了一些改进。H.Friguiand和O.Nasraoui引入了每一个目标属于每一类的程度以及每一类的每一个属性对于聚类的作用。Liping Jing,,Michael K.Ng等人提出了一种熵权重K-均值方法,该方法采用属性权重的熵来表示属性对于识别每一类所起的作用。Tao ying Li和Yan Chen通过对目标函数的修改而拓展了熵属性权重方法。我们主要对基于熵权重的k均值方法进行研究。分析该方法的优势与劣势,然后对其进行改进。
下面深入地介绍两种主要的相关方法。
1.基于熵权重的K-均值方法
通过以上的介绍和分析,我们可以看出,基于熵权重的K-均值方法是一种基于K-均值的方法,通过在该方法中引入属性权重的熵,从而使得方法的性能有了一定的提高,但是这种方法也是随机的选择初始聚类中心,所以聚类结果的好坏依赖于初始聚类中心的选择,依然存在对初始聚类中心敏感而导致其聚类结果不是很稳定。而且,基于熵的K-均值方法中熵权重的确定也取决于初始点的选择,这就使得该方法的聚类结果更易受到初始聚类中心的影响而变得更加的不稳定。所以我们要想使聚类的效果既保持很高的准确度,同时又很稳定,就要试图使聚类中心的选择不再是随机确定的,而是根据一定的数学原理推导出来的合理的初始中心的选择方法。
2.全局K-均值
2002年A.Likas等人提出了全局K-均值方法。该方法与K-均值方法的不同之处在于初始聚类中心点的选择,但都采用K-均值进行聚类中心的更新。全局K-均值采用一种确定性地方法而不是随机选取来产生初始聚类中心,所以全局K-均值方法不依赖于任何的初始参数值。Global开始只确定一个聚类中心,通过选取所有点的中心作为第一个初始的聚类中心,再通过K-均值更新,直到不再变好而停止更新,然后再选出第二个聚类中心,选取所有点中对应的聚类错误最小的那个点作为第二个聚类中心,再采用K-均值进行更新,直到找到K个聚类中心方法就会结束。这种方法因为其初始中心选取的改变使得方法非常稳定,因为所有初始点的选择都是根据同样的原理,所以都是确定性的操作,得到的聚类结果有所改善的同时也非常的稳定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110224684.X/2.html,转载请声明来源钻瓜专利网。