[发明专利]用于大数据挖掘聚类的自适应PSO-PFCM聚类方法在审
申请号: | 201910233570.8 | 申请日: | 2019-03-26 |
公开(公告)号: | CN109960703A | 公开(公告)日: | 2019-07-02 |
发明(设计)人: | 曹建蜀;王晟 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F17/50;G06K9/62 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 聚类 大数据 自适应 数据处理过程 原始数据集 聚类过程 聚类数据 密度计算 优良性能 挖掘 算法 保留 | ||
本发明公开了提供的用于大数据挖掘聚类的自适应PSO‑PFCM聚类方法将模块密度计算及其自适应聚类数目用于大数据聚类过程中,使原本需要人为设定聚类数据的大数据聚类方法可以自动的确定最佳聚类数目,使得大数据处理过程中的PSO‑PFCM算法在保留了器优良性能的同时,适应不同的原始数据集的聚类,减少了大量人为工作。
技术领域
本发明属于大数据处理技术领域,具体涉及一种用于大数据挖掘过程中的自适应PSO-PFCM聚类方法。
背景技术
聚类分析(Clustering Analysis,CA)是基于数学方法研究对象,并对给定对象进行划分的无监督的机器学习方法。CA是将目标对象以一定的度量标准划分到所对应的多个簇中,为使簇内存有较好的相似性,而簇间却有明显的相异性。此外,它能够在不需要领域知识的前提下从数据中得到额外的有用信息,并且能够直观而快速的反应数据特征。而传统的模糊聚类算法需要人为设定聚类数目,不同数据集不能自适应判断类别数,使得不同数据集的模糊聚类非常不方便。
发明内容
针对现有技术中的上述不足,本发明提供的用于大数据挖掘聚类的自适应PSO-PFCM聚类方法解决了传统的模糊聚类算法需要人为设定聚类数目,不同数据集的模糊聚类非常不方便的问题。
为了达到上述发明目的,本发明采用的技术方案为:用于大数据挖掘聚类的自适应PSO-PFCM聚类方法,包括以下步骤:
S1、对数据集进行初始化处理,将数据集划分成由若干个体组成的群体;并确定群体中的个体初始最优位置;
S2、通过PFCM算法对个体初始最优位置进行更新,得到群体聚类中心;
S3、根据群体聚类中心pgd(t+1)进行聚类,确定当前最优聚类结果对应的目标聚类数目;
S4、计算当前最优聚类结果对应的模块密度,并更新最大模块密度;
S5、确定更新后的最大模块密度对应的最优聚类结果,并更新目标聚类数目;
S6、判断更新后的目标聚类数目是否小于1;
若是,则将该目标聚类数目对应的最优聚类结果作为大数据挖掘聚类过程中的聚类结果;
若否,则返回步骤S1。
进一步地,所述步骤S1具体为:
S11、对数据集中的数据样本进行编码,并将编码后的数据样本随机分成若干类;
S12、重复执行步骤S1 N次,产生N个初始候选解,构成初始群体;
其中,每个初始候选解表示群体中的个体初始最优位置pid(0)。
进一步地,所述步骤S2具体为:
S21、通过PFCM算法对当前个体最优位置pid(t)进行处理,更新模糊划分矩阵、用户参数、可能性划分矩阵和个体最优位置;
其中,第一次通过PFCM算法对当前个体最优位置pid(t)进行处理时的当前个体最优位置pid(t)为个体初始最优位置pid(0);
S22、根据更新后的模糊划分矩阵Ut+1、用户参数γi和可能性划分矩阵Tt+1确定并更新适应度函数f0(x);
其中,第一次更新前的适应度函数f0(x)中的模糊划分矩阵Ut+1、用户参数γi和可能性划分矩阵Tt+1均为随机设置;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910233570.8/2.html,转载请声明来源钻瓜专利网。