[发明专利]一种基于遗传算法的近邻传播聚类方法无效
申请号: | 201910829931.5 | 申请日: | 2019-09-04 |
公开(公告)号: | CN110543913A | 公开(公告)日: | 2019-12-06 |
发明(设计)人: | 周金治;赖键琼 | 申请(专利权)人: | 西南科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/12 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 621010 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类分析 聚类算法 聚类 矩阵 偏向参数 遗传算法 阻尼因子 传播 预处理 相似度矩阵 工作基础 聚类结果 聚类中心 敏感问题 欧氏距离 数据对象 数据挖掘 真实数据 终止条件 归属度 数据集 吸引度 相似度 有效地 最优解 准确率 迭代 算法 更新 | ||
一种基于遗传算法的近邻传播聚类方法,属于数据挖掘领域。其特征在于先对数据进行预处理,然后采用近邻传播聚类算法对数据集进行聚类分析。聚类分析首先是将个数据点之间的相似度(负欧氏距离)构成的相似度矩阵作为工作基础,并将所有的数据对象看作潜在聚类中心;其次利用遗传算法获取最优偏向参数和阻尼因子;最后利用求得的最优解在吸引度矩阵和归属度矩阵中不断更新迭代,直到达到终止条件,完成聚类并获取聚类结果。该算法有效地克服了标准近邻传播聚类算法对偏向参数和阻尼因子的敏感问题,提高了聚类算法的准确率,且聚类数目更接近真实数据集类数,可有效应用于各类数据的聚类分析。
技术领域
本发明应用背景为数据挖掘技术,即从数据中挖掘知识。发明内容是指在数据的海洋中运用聚类算法对数据进行聚类,分析聚类结果,发现或获取有用信息,其旨在克服近邻传播聚类算法对偏向参数和阻尼因子的敏感问题,提高聚类算法的准确率,属于数据挖掘机技术领域最重要的组成部分之一。
背景技术
聚类分析(cluster analysis)简称聚类(clustering),是把一个数据对象划分成子集的过程。每一个子集是一个簇,使得簇中的对象彼此相似,但与其他簇中的对象不相似。目前,聚类分析已经在商务智能、图像模式识别、Web搜索和数字医疗等方面得到广泛应用。
聚类是一种不需要提供类标号的无监督学习方式。目前数据聚类比较典型的算法有K-Means聚类、层次聚类、FCM聚类等。但是上述几种算法均存在不同程度上的缺点,如K-Means聚类算法对离群点、孤立点和初始聚类中心敏感,聚类数目需要人为设定且容易陷入局部最优解等缺点;层次聚算法的树形视图不会真正将数据拆分成不同的组,且计算量非常大,算法的运行速度慢等缺点;FCM聚类对初始聚类中心敏感,容易陷入局部最优解,且计算量非常大等缺点。
2007年Frey和Dueck提出了一种全新的基于代表点的聚类算法AP(AffinityPropagation)近邻传播聚类算法,该算法采用消息传递得到问题的解。虽然AP聚类算法几乎优于其他聚类算法,但也存在对偏向参数和阻尼因子敏感的问题。针对这一问题,王开军等提出了自适应传播聚类算法(A_AP);Xian-hui Wang提出了基于粒子群智能算法自适应搜索最佳的偏向参数( PAAP) ; B. Jia提出了基于布谷鸟智能算法自适应搜索最佳的偏向参数( CAAP) 。上述方法虽然在一定程度上使得算法得到优化,但是无法精确获得全局最优解。基于遗传算法的近邻传播聚类方法是通过运用遗传算法不断的更新迭代获取最佳偏向参数和阻尼因子,AP聚类算法再根据获得的最佳偏向参数和阻尼因子完成聚类,获得最佳聚类效果。新的聚类算法不仅可以克服原算法对偏向参数和阻尼因子的敏感问题,还可以提高算法的聚类效果。
发明内容
AP聚类算法中有两个重要参数:置于相似度矩阵 S(similarity)对角线的偏向参数 和迭代中针对吸引度矩阵R(responsibility)和归属度矩阵A(availability)更新的阻尼因子。由于值的选取直接影响到聚类数目的多少,当较大,聚类数目就越多;反之,聚类数目就会越少。然而,大小的选择不仅决定了算法的收敛性,而且当算法发生震荡时,可以通过手动增大的值消除震荡。原始的AP聚类算法对于和大多取经验值,因此为了解决这一问题,提出一种基于遗传算法的近邻传播聚类方法,称GA_AP。该方法首先是选用遗传算法利用AP聚类算法不停地更新迭代获取适应度函数值(fitness),选用作为适应度函数,根据适应度函数值自动调整偏向参数和阻尼因子;然后将获取到的最佳和在AP聚类算法中进行聚类,完成聚类并获得最终的聚类结果。为实现上述目的,本发明采用以下技术方案:
基于遗传算法的近邻传播聚类算法主要包括以下几个部分:第一,数据预处理,即数据缺失值和数据标准化等;第二,选用遗传算法获取最优偏向参数和阻尼因子;第三,选用最优的偏向参数和阻尼因子完成AP聚类,获取最终聚类结果。
数据预处理。数据缺失值是选用和给定元组所属的类的所有样本的属性均值进行填充;数据标准化采用零均值规范化,即经过处理的数据的均值为0,标准差为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南科技大学,未经西南科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910829931.5/2.html,转载请声明来源钻瓜专利网。