[发明专利]一种基于MapReduce的并行聚类方法有效

申请号：	201210434240.3	申请日：	2012-11-05
公开（公告）号：	CN103793438B	公开（公告）日：	2017-07-14
发明（设计）人：	孙占全	申请（专利权）人：	山东省计算中心（国家超级计算济南中心）
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	250014***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明基于MapReduce的并行聚类方法，主要是针对大规模数据集的聚类问题，该方法以信息损失量度量样本之间的相关性，可以体现样本之间复杂的相关性，并且提供了一个客观的聚类数确定准则，通过数据并行，大大提高了聚类速度。该聚类方法可以广泛应用于医学、药学、智能交通、模式识别等领域的聚类问题。
搜索关键词：	一种基于 mapreduce 并行方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于MapReduce编程模型的并行聚类方法，其特征在于，包括步骤：原始数据划分及参数设定；以基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心；以基于MapReduce的并行中心聚类方法实现最终聚类结果；所述的原始数据划分及参数设定，具体包括：对原始文件进行分析，将原始数据转换成用概率向量表示的形式，然后随机的将原始数据均匀划分成n份，将n份数据分布到m个map节点，设定聚类截尾精度阈值α0、β0和δ0，其中α0是聚类步骤与该组数据中所有数据数比值的阈值；β0是信息损失量实际损失值与预测值差值的阈值；δ0是在并行中心聚类过程中，当前的聚类中心与上次聚类中心差值的阈值；所述的基于MapReduce的并行信息瓶颈理论聚类方法确定聚类数和初始聚类中心，具体包括：针对每个数据划分，利用基于信息瓶颈理论聚类方法进行聚类：a.将每个向量数组看作最初的类；b.计算任意两组向量合并产生的信息损失量，选择合并后产生的信息损失量最小的一组进行合并，生产新的数组；c.重复步骤b直至满足聚类截尾精度α0和β0，确定聚类数，具体为：对于第i个数据划分，当聚类步数达到第k步k＞niα0时，开始利用当前聚类步前k‑1步产生的信息损失量进行最小二乘回归，根据回归方程，当前聚类步的预测值为则预测值与实际信息损失量的差值为当e＞β0时，聚类结束，聚类数即为当前数据集的聚类数；合并各数据划分的聚类中心，利用基于信息瓶颈理论聚类方法重新聚类，生成全局初始聚类中心；所述基于MapReduce的并行中心聚类方法实现最终聚类结果，具体包括：a利用中心聚类方法确定每步聚类中心；b通过迭代的方式调整聚类中心，当满足迭代阈值时，聚类结束；所述利用中心聚类方法确定每步聚类中心，具体包括：在获取初始聚类中心C0后，将其分布到各个Map节点，设k个空数据集P1，P2，...，Pk，计算样本x与初始聚类中心之间的距离，用信息损失作为测度，当x与之间的信息损失最小时，将样本x放入到数据集Pi中，根据下式计算数据集Pi的中心对数据子集的所有数据计算过后，根据新生成的数据集P1，P2，...，Pk计算新的聚类子中心C1，C2，...，Cm，将所有的数据子集中心收集到一起，根据(2)计算新的全局聚类中心；所述通过迭代的方式调整聚类中心，当满足迭代阈值时，聚类结束，具体包括：计算新聚类中心xnew与上次聚类中心xold的差值，如果差值小于预先指定的阈值，迭代过程结束，如果大于指定的阈值，继续迭代过程，差值计算如下当δ＜δ0时，迭代结束。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东省计算中心（国家超级计算济南中心），未经山东省计算中心（国家超级计算济南中心）许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201210434240.3/，转载请声明来源钻瓜专利网。

上一篇：一种能抗幅度缩放攻击水印的编码、嵌入和解码方法
下一篇：煤样取样系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于MapReduce的并行聚类方法有效

专利文献下载