[发明专利]可能模糊K调和均值聚类方法及系统无效
申请号: | 201210336710.2 | 申请日: | 2012-09-12 |
公开(公告)号: | CN103049636A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 武小红;孙俊;武斌;吴瑞梅 | 申请(专利权)人: | 江苏大学 |
主分类号: | G06F19/00 | 分类号: | G06F19/00 |
代理公司: | 江苏致邦律师事务所 32230 | 代理人: | 樊文红 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 可能 模糊 调和 均值 方法 系统 | ||
技术领域
本发明涉及聚类分析技术领域,尤其涉及一种可能模糊K调和均值聚类方法及系统。
背景技术
聚类是一种无监督学习方法,它寻找数据之间的相互联系,按照相似性原则进行分类,就是“物以类聚”。聚类广泛应用于模式分类,文本信息提取,图像分割和数据挖掘等领域。K-均值聚类是著名的聚类方法之一,给定一个数据集和聚类数目k,K-均值聚类能简洁有效地划分数据集。但是,K-均值聚类的聚类结果依赖于初始聚类中心的选择,不同的初始聚类中心会导致不同的聚类结果,所以,K-均值聚类对初始聚类中心敏感而导致聚类结果不稳定。另外,K-均值聚类容易陷入局部极小点。
1999年Zhang等人提出K调和均值聚类,是一种基于中心的迭代聚类方法。K调和均值聚类将所有数据点到每个聚类中心的调和平均值的和作为聚类的目标函数。实验表明,由于提升函数的作用使K调和均值聚类对初始聚类中心不敏感。但是,K调和均值聚类也容易陷入局部极小点。因此,许多学者针对此问题展开研究。Yang等人将粒子群优化和K调和均值聚类相结合,提出一种粒子群优化的K调和均值聚类方法(PSOKHM),PSOKHM能避免局部极小点,并且解决了粒子群优化收敛速度慢问题。由于蚁群聚类方法能解决局部极小点问题,Jiang等人提出一种基于蚁群聚类的K调和均值聚类方法。在给定初始温度值后模拟退火用来搜寻一些空间分子的平衡状态,它是一种求解组合优化问题的方法。和在模拟退火和K调和均值聚类基础上提出一种新的聚类算法以求得K调和均值聚类的全局最优解。禁忌搜索是一种全局逐步寻优算法,和利用禁忌搜索方法提出禁忌K调和均值聚类方法,该方法解决了K调和均值聚类的局部极小点问题。以上方法主要是解决K调和均值聚类容易陷入局部极小点这个问题。而目前有关K调和均值聚类噪声敏感性问题没有发现和解决。
本发明指出K调和均值聚类对噪声敏感,同时解决这个噪声敏感问题。聚类噪声敏感性问题是聚类方法中一个重要的研究热点,比如:Davé将噪声看作一个独立的类,定义噪声距离为常数,提出一种处理含噪声数据的噪声聚类方法。模糊C-均值聚类(FCM)是一种建立在平方误差最小准则基础上的模糊聚类算法,通过可能性约束条件,FCM使数据点在所有类中的隶属度之和为1。可能性约束条件避免了所有隶属度为0的平凡解,但是造成了FCM对噪声敏感。为了克服FCM的这个缺点,Krishnapuram和Keller放弃了FCM的可能性约束条件,构造了一个新的目标函数,提出了可能C-均值聚类(PCM)。PCM能够聚类包含噪声或野值点的数据,PCM使噪声数据具有很小的隶属度值,因而噪声对聚类的影响可以忽略。但是PCM对初始聚类中心很敏感,常常会导致一致性聚类结果[49]。PCM重视了典型性思想,从而减少了噪声对聚类的影响,但它忽略了模糊隶属度,模糊隶属度可以使类中心和数据紧密联系在一起。为了克服FCM对噪声数据敏感和PCM产生一致性聚类的缺点,Pal等在FCM和PCM的基础上提出了可能模糊C-均值聚类(PFCM)。
有鉴于此,有必要提出一种可能模糊K调和均值聚类方法及系统以解决上述问题。
发明内容
本发明的目的在于提供一种可能模糊K调和均值聚类方法及系统,从而解决K调和均值聚类噪声敏感性问题。
本发明的一种可能模糊K调和均值聚类方法,所述方法包括以下步骤:
S1、确定聚类的初始类中心;
S2、设置聚类算法的参数值;
S3、计算样本数据的协方差;
S4、计算可能模糊K调和均值聚类的模糊隶属度值;
S5、计算可能模糊K调和均值聚类的典型值;
S6、计算可能模糊K调和均值聚类的聚类中心值;
S7、判断是否满足迭代终止条件,若满足则迭代终止,若不满足则返回步骤S3~S6继续进行迭代计算;
S8、利用模糊隶属度值和典型值最终实现数据集的划分。
作为本发明的进一步改进,所述步骤S2具体为:确定类别数k,数据的个数n和权重指数m和q的值,且满足n>k≥2,+∞>m,q>1;设置迭代次数初始值r=1和最大迭代次数为rmax;设置迭代最大误差参数ε;设置常数a和b的值。
作为本发明的进一步改进,所述步骤S3中样本数据的协方差计算公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210336710.2/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学,即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真,例如:概率模型或动态模型,遗传基因管理网络,蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的,例如:进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的,例如:结构排序,结构或功能关系,蛋白质折叠,结构域拓扑,用结构数据的药靶,涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的,例如:基因型–表型关联,不均衡连接,种群遗传学,结合位置鉴定,变异发生,基因型或染色体组的注释,蛋白质相互作用或蛋白质核酸的相互作用