[发明专利]一种基于云计算平台的大数据聚类算法有效

专利信息
申请号: 201410104227.0 申请日: 2014-03-14
公开(公告)号: CN103838863B 公开(公告)日: 2017-07-18
发明(设计)人: 孟海东;任敬佩;宋宇辰 申请(专利权)人: 内蒙古科技大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 014010 内蒙*** 国省代码: 内蒙古;15
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 计算 平台 数据 算法
【说明书】:

技术领域

发明属于数据挖掘技术领域,涉及一种基于云计算平台的大数据聚类算法。

背景技术

聚类分析作为统计学、机器学习和数据挖掘等领域的交叉学科,吸引了众多研究者投身其中,使之成为数据挖掘研究领域的一个非常活跃的研究课题。迄今为止国内外的研究者们提出了很多聚类算法,主要的聚类方法可以分为:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法等。

在2012年8月21日举办的“第六届移动互联网国际研讨会”上,美国卡内基梅隆计算机机器人专业博士邓侃表示,发现大数据中的价值,要依靠数据挖掘的算法,并且要有数据挖掘的算法加上云计算的并行计算。分布式的云存储平台则提供更加廉洁的成本和高处理性能,加上高效的数据挖掘算法,成为了解决大数据问题的良药。

英国南安普顿大学《云计算下的海量数据挖掘研究》中提到云计算的出现为愈来愈多的中小企业分析海量数据提供廉价的解决方案。介绍基于云计算Hadoop集群框架和数据挖掘技术中的SPRINT(Scalable Parallelizable Induction of Decision of Trees,一种具有可伸缩性的决策树分类算法)分类算法的基础上,详细描述SPRINT并行算法在Hadoop(一种分布式编程框架)中的MapReduce(一个数据处理模型)编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。

目前,基于云计算平台的数据挖掘工作已取得众多成果。Apache Mahout(Apache SoftWare Foudation旗下的一个开源项目)项目开发出多种面向商业角度的并行数据挖掘算法;中国科学院计算技术研究所推出的并行分布式数据挖掘平台(PDMiner,Parallel Distributed Miner)已可实现TB级别的海量数据处理;中国移动通信的并行数据挖掘工具(BC-PDM,Blue Carrier based Parallel Data Mining)更是提供了基于Web的服务模式。这些标志性成果,大力推动了该领域的发展。在云计算编程模型MapReduce的基础上,已有多种数据挖掘算法被实现。2007年CHU等学者提出了基于MapReduce的朴素贝叶斯分类算法。该算法采用分布处理的思想,通过采用对样本进行分散统计与集中整合的方式来构造分类器,但它能处理离散型数据,不能对连续型数据提供有效的支持。另外,数据挖掘工作中常用聚类算法的MapReduce实现,就我们所知道的范围内,尚未见到相关权威报道。

当前,国内外在对聚类方法的研究上还多停留在串行法的优化上。串行聚类算法在统计和数据库领域得到了大量的研究和应用,如K-Means(K平均方法)算法、面向大规模数据库系统的综合层次聚类(BIRCH,Balanced Reducing and Clustering Using Hierarchies)算法、处理空间数据的统计信息网格(STING,Statistical Information Grid)算法等。面对日益增长的海量数据库和高维数据类型,为了获得更好的计算能力,研究并行模型下的聚类算法,利用集群的高速计算能力来解决大数据的聚类运算,具有非常重要的意义。

随着互联网、实时数据流、连接设备多样化的发展,以及搜索服务、社会网络、移动商务和开放协作等需求的推动,云计算迅速发展起来。不同于以往的并行分布式计算,云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。因此,各大IT厂商均在大力投资云计算的研究,推广各自的云计算服务和产品的谷歌、亚马逊、IBM、微软和雅虎(Google、Amazon、IBM、Microsoft和Yahoo!)等大公司是云计算的先行者。

Google当数最大的云计算的使用者。目前,Google已经允许第三方在Google的云计算中通过GoogleApp Engine(谷歌应用搜索引擎)运行大型并行应用程序。MapReduce是由Google在2004年最先提出的分布式计算编程框架,它可以支持大数据量的分布式处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于内蒙古科技大学,未经内蒙古科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201410104227.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top