[发明专利]基于NSS‑AKmeans和MapReduce处理大数据的K‑Means聚类方法在审
申请号: | 201710619794.3 | 申请日: | 2017-07-26 |
公开(公告)号: | CN107423764A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 王霞;康春阳 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 西安通大专利代理有限责任公司61200 | 代理人: | 闵岳峰 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 nss akmeans mapreduce 处理 数据 means 方法 | ||
技术领域
本发明涉及机器学习中的聚类分析,特别涉及一种基于NSS-AKmeans和MapReduce处理大数据的K-Means聚类方法。
背景技术
随着大数据时代的来临,数据的急剧增加为数据分析方法带来了极大的挑战。传统的机器学习方法直接在大数据集上直接使用,会遇到各种各样的问题。
作为十大常用机器学习算法之一的K-Means有着广泛的使用。K-Means不仅能够单独进行数据分析,而且可以作为其他学习任务的一部分。K-Means的使用需要选取初始簇中心,而选取的中心的好坏对聚类结果有很大的影响。Hadoop作为一个分布式系统基础架构,能够利用集群来进行高速运算和存储。它对于大数据的分析和处理有着重要的意义。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。MapReduce的并行化模型能够极大地提高K-Means的运算效率,为处理大数据提供了很大的便利。
K-Means在MapReduce上的并行化实现和改进,有很多的研究成果被提出。已有的K-Means方法在MapReduce上的实现依然保持K-Means固有的缺点。作为K-Means的输入,初始簇中心的好坏对于最终的聚类结果有很大的影响。但已有的基于MapReduce的K-Means方法对初始簇中心的选取的改进还是有限的,K-Means迭代次数还是很高的,并且簇数量的个数也需要已知。以下文献对K-Means算法在MapReduce上的实现做了一定的改进。
文献1.Chaturbhuj,Kaustubh S.,and Gauri Chaudhary."Parallel clustering of large data set on Hadoop using data mining techniques."Futuristic Trends in Research and Innovation for Social Welfare(Startup Conclave),World Conference on.IEEE,2016.
文献2.Moertini,Veronica S.,and Liptia Venica."Enhancing parallel k-means using map reduce for discovering knowledge from big data."Cloud Computing and Big Data Analysis(ICCCBDA),2016IEEE International Conference on.IEEE,2016
文献1利用PSO搜索算法来确定初始簇中心,以此来减少K-Means的迭代次数。此文献中虽然利用PSO算法搜索到了较好的初始簇中心,但PSO算法的实现实在Hadoop平台之外的,并且簇数量的值需要已知。
文献2利用两个MapReduce作业来完成聚类分析。在第一个MapReduce作业中,对数据集进行采样得到一个子集,利用K-Means算法对子集进行聚类分析,得到子集的簇中心作为初始簇中心。在第二个MapReduce作业中,利用已有的初始簇中心,运用K-Means算法完成聚类分析。此算法的缺点是,得到的初始簇中心要比随机选择接近真实簇中心,但相差还是比较大。因此在第二个MapReduce作业中,K-Means算法的迭代次数还是很高的。同样的,此算法中簇数量的值需要已知。
以上文献提出的算法主要存在的问题是,数据集的簇数量都需要已知,不能由算法得到。算法中得到的初始簇中心由于和真实簇中心相距较远,在计算数据集最终的簇中心时,K-Means算法的迭代次数还是很高的。
发明内容
本发明的目的在于提供一种基于NSS-AKmeans和MapReduce处理大数据的K-Means聚类方法,以解决背景技术中簇数量需要已知,初始簇中心不够准确的问题。与已有的方法比较,该方法能够基于MapReduce实现对大数据集进行聚类分析自动选择簇数量并获得较准确的初始簇中心的聚类方法。
为达到上述目的,本发明通过如下的技术方案予以实现:
基于NSS-AKmeans和MapReduce处理大数据的K-Means聚类方法,包括以下步骤:
(1)在第一个MapReduce作业中,对数值型数据集进行预处理,包括数据的清洗,归一化,重排;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710619794.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:采暖或空调智能换热机组
- 下一篇:一种自然循环热水供暖系统管路结构