[发明专利]一种基于模糊C均值的分布式集成聚类分析方法有效
申请号: | 201910981453.X | 申请日: | 2019-10-16 |
公开(公告)号: | CN110880015B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 母亚双;王利东;刘晓东 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06F18/2321 | 分类号: | G06F18/2321;G06F18/214;G06F16/27 |
代理公司: | 昆明人从众知识产权代理有限公司 53204 | 代理人: | 沈艳尼 |
地址: | 450001 河南省*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模糊 均值 分布式 集成 聚类分析 方法 | ||
1.一种基于模糊C均值的分布式集成聚类分析方法,其特征在于:在Map-Reduce分布式计算模型下,首先通过对数据的分布进行随机分块,然后提取每块数据的聚类中心,并对每块数据的聚类中心进行集成融合,最后完成大规模数据的聚类分析,所述集成聚类分析方法在分布式框架Map-Reduce下共包含三个层次,其具体的处理步骤如下:
Step1、对数据集X进行随机化排序,Layer1;
Step2、将数据集X分割成个子数据集Layer1;
Step3、提取最终的类簇中心c1,c2,...,cc,Layer 2;
Step4、根据类簇中心将X中的样本划分到不同的类簇X1,X2,...,Xc,Layer 3;
所述步骤Step3在Map-Reduce模型下的具体步骤为:
Step3.1、假设数据集X在分布式系统中可被分割成m个子数据集
Step3.2、在第j个Mapper函数中,对数据集Xj应用FCM聚类算法,确定数据集Xj的类簇中心c1(Xj),c2(Xj),...,cc(Xj),这里类簇个数被设置为数据集X中类别的个数,将Mapper函数的key指定为空,将类簇中心c1(Xj),c2(Xj),...,cc(Xj)作为该Mapper函数的value;
Step3.3、在Reducer函数中,来自Mapper函数中的中心进行聚合形成新的数据集,再次应用FCM算法对新数据集进行类簇中心的确定,最终形成了样本数据X的类簇中心c1,c2,...,cc;
所述步骤Step4在Map-Reduce模型下的具体步骤为:
Step4.1、假设数据集X在分布式系统中可被分割成m个子数据集
Step4.2、在第j个Mapper函数中,对样本xi∈Xj计算到类簇中心c1,c2,...,cc的距离,将距离最近的类簇中心的下标作为key,将样本xi作为该Mapper函数的value,按照key的不同,将样本数据输入到不同的类簇集合X1,X2,...,Xc中。
2.根据权利要求1所述的基于模糊C均值的分布式集成聚类分析方法,其特征在于所述步骤Step1在Map-Reduce模型下的具体步骤为:
Step1.1、假设数据集X在分布式系统中可被分割成m个子数据集
Step1.2、在第j个Mapper函数中,对每个样本xi∈Xj随机产生一个随机整数,将随机整数作为该Mapper函数的key,将样本xi作为该Mapper函数的value;
Step1.3、在Reducer函数中,来自Mapper函数中的样本按照key进行聚合,将聚合后的样本数据依次存入数据集中,最终构成随机化后的样本数据集合。
3.根据权利要求1所述的基于模糊C均值的分布式集成聚类分析方法,其特征在于所述步骤Step2其在Map-Reduce模型下的具体步骤为:
Step2.1、假设数据集X在分布式系统中可被分割成m个子数据集最终数据集X被分割成个子数据集;
Step2.2、在第j个Mapper函数中,对每个样本xi∈Xj计算的余数,将该余数作为该Mapper函数的key,将样本xi作为该Mapper函数的value;
Step2.3、在Reducer函数中,对来自Mapper函数中的样本按照key进行聚合,对聚合后的样本依次存入不同的子数据集中,最终构成个样本数据集
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910981453.X/1.html,转载请声明来源钻瓜专利网。