[发明专利]一种基于广义模糊聚类算法的无监督数据分类方法在审
申请号: | 201810495011.X | 申请日: | 2018-05-22 |
公开(公告)号: | CN108710914A | 公开(公告)日: | 2018-10-26 |
发明(设计)人: | 文传军;许定亮;刘福燕 | 申请(专利权)人: | 常州工学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 高桂珍 |
地址: | 213032 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类中心 模糊聚类算法 模糊隶属度 反比例关系 聚类算法 目标函数 数据分类 初始化 无监督 粒子群算法 最小化原则 模糊 迭代公式 定义样本 粒子位置 样本集合 样本聚类 有效挖掘 噪声数据 归一化 最优化 粒子 样本 变形 更新 拓展 | ||
本发明公开了一种基于广义模糊聚类算法的无监督数据分类方法,其步骤包括:对样本集合依GFC目标函数最小化原则进行最优化划分;初始化多个粒子的位置和速度值;将粒子位置值与样本聚类中心对应实现聚类中心初始化;定义样本、聚类中心间的距离与模糊隶属度成反比例关系从而计算样本模糊隶属度;按粒子群算法迭代公式得到更新的聚类中心;计算得到GFC目标函数。本发明所构造的模糊聚类算法不受归一化约束的限制,能够对噪声数据作有效挖掘和识别。所构造的模糊隶属度与聚类中心反比例关系形式可以拓展变形为多种形式,提升了聚类算法的适用范围,还可对模糊指标作隐藏忽略,从而避免了模糊指标对聚类算法的干扰。
技术领域
本发明属于数据挖掘领域里的无监督数据分类的方法,特别涉及一种基于广义模糊聚类算法的无监督数据分类方法。
背景技术
基于目标函数的模糊聚类是聚类分析领域的重要研究内容,并被广泛应用于无监督模式分类、音视频分析处理、机器智能学习和数据挖掘分析等领域。模糊C均值算法(fuzzy C-means clustering,FCM)是一种典型的从聚类目标函数出发推导的模糊聚类算法,是最重要和应用最广泛的模糊聚类方法。FCM算法的模型表达形式直观且易于理解、优化求解的理论较为严谨、可通过计算机编程计算、聚类的结果表现较好等。
FCM算法受限于归一化条件的约束,因此对噪声数据较为敏感,远离各类聚类中心的噪声数据依然能够获得较高的模糊隶属度,PCM算法(Possibility C mean clusteringalgorithm,PCM)在FCM算法的基础上放弃了归一化约束,但样本模糊隶属度仅与该类聚类中心有关而导致聚类中心一致性,PFCM、FPCM等算法在FCM、PCM算法的基础上,分别采取加法组合及乘法组合的形式将二者结合起来,以充分利用两算法各自的优势,但增加了很多需人工经验取定的组合变量,进而使得聚类算法复杂且无有效的参数优化确定方法。
模糊聚类算法中存在三个重要的因素,一是模糊隶属度的表达。模糊隶属度体现了样本与聚类中心的关系,当样本和聚类中心距离较大时,聚类算法赋予样本较小的模糊隶属度,所以模糊隶属度反比例于样本、聚类中心距离。二是聚类中心的取定。为了聚类目标函数最小化,聚类中心应与模糊隶属度较大的样本靠近,换言之即聚类中心应落入样本聚集较多的地方。聚类中心主要通过两种方法计算得到,一种是样本模糊隶属度加权平均,另外一种是通过生物进化算法如遗传算法(genetic algorithm,GA)寻优估计得到。三是确定聚类目标函数。FCM算法的聚类目标函数是基于类内误差加权平方和最小化的,隐隶属度模糊c均值聚类算法(hidden-membership fuzzy c-means clustering algorithm,HMFCM)通过等式变换,将FCM算法聚类目标函数转换为样本、聚类中心距离的最小化形式,这也体现聚类算法的本质所在,也就是类内误差依靠样本与聚类中心距离表现,追求类内误差的最小化。由于样本、聚类中心距离与模糊隶属度成反比例关系,因此聚类目标函数还可表达为模糊隶属度的最大化。
另外,自FCM算法提出以来,Bezdek利用梯度法和AO交替迭代法所确定的模糊隶属度、聚类中心估计方法一直影响着后续研究工作的展开,FCM算法的收敛性条件要求模糊隶属度二阶海赛阵正定,具体表现为要求模糊指标大于1。理论证明指出,当利用粒子群算法(particle swarm optimization algorithm,PSO)等生物进化算法对模糊隶属度进行估计时,由于摆脱了梯度法收敛性的限制,聚类算法可以将模糊指标取值范围扩展到大于零的情况,聚类算法依然能保持聚类效果。
发明内容
本发明为了克服模糊c均值聚类算法(FCM)归一化约束对噪声数据敏感的缺陷,提出广义模糊聚类算法(generalized fuzzy clustering algorithm,GFC),通过反比例形式定义模糊隶属度与聚类中心之间的关系,同时利用粒子群算法进行聚类中心参数估计以及以模糊隶属度最大化为目标函数的可对噪声数据集包容。
为了实现上述发明目的,本发明采用如下技术方案:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于常州工学院,未经常州工学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810495011.X/2.html,转载请声明来源钻瓜专利网。