[发明专利]基于hadoop的海量数据挖掘方法在审

申请号：	201610098011.7	申请日：	2016-02-23
公开（公告）号：	CN105787009A	公开（公告）日：	2016-07-20
发明（设计）人：	武斌;陈雨;邹建军	申请（专利权）人：	浪潮软件集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30;G06F9/50
代理公司：	济南信达专利事务所有限公司 37100	代理人：	张靖
地址：	250100 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于 hadoop 海量数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及数据挖掘技术领域，具体涉及一种基于hadoop的海量数据挖掘方法。

背景技术

目前，随着数据规模的迅速扩张，单一节点的计算能力已经不能胜任大规模数据的分析处理。近几年来，随着“云计算”技术的兴起，人们将海量数据存储与处理的目光转向了这个新兴的行业。“云计算”是一种基于互联网的计算，在其中共享的资源、软件和信息等以一种按需的方式提供给计算机和设备。

“云计算”技术借助网络中强大的计算资源，将消耗大量计算资源的复杂计算通过网络分散到多节点上进行计算，是当前一种行之有效的解决方案。互联网作为全球最大的数据集合，基于Web的数据挖掘一直是国内外学者研究的热点。但是目前对数据挖掘的研究主要集中在改进挖掘系统的有效性方面，而忽视了对海量数据的处理速度。随着网络技术的迅猛发展，互联网中的数据正以指数级规模飞速增长，IDC(InternetDataCenter,互联网数据中心)估计2011年的互联网中的数据规模将达到1.8ZB（1ZB=1024EB,1EB=1024PB,1PB=1024TB）。这使得基于单一节点的挖掘平台不能完成目前海量Web数据的存储与分析处理任务。因此，可以需要借助云计算强大的存储和计算能力解决此类问题。

Hadoop“云计算”平台最大的优势是它实现了“计算靠近存储”思想，传统的“移动数据以靠近计算”模式在数据规模达到海量时的系统开销太大，而“移动计算以靠近存储”可以省去了海量数据的网络传输这一大开销，就能大幅消减处理时间。

对于现今的商业智能分析而言，通常需要进行海量数据的分析。因此，运用计算机的高效运算能力对数据资料进行统计分析已经是统计发展的必然趋势。Hadoop是Apache下提供的一个为便于编写和运行处理大规模数据的应用的软件平台。Hadoop的核心设计思想是：MapReduce和HDFS，MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。概念"Map（映射）"和"Reduce（化简）"，和它们的主要思想，都是从函数式编程语言借来的，还有从矢量编程语言借来的特性；HDFS是HadoopDistributedFileSystem的缩写，即：Hadoop分布式文件系统，它为分布式计算存储提供底层支持。

由于传统的挖掘算法不适合使用MapReduce模型在Hadoop集群上并行计算，本发明在对云计算平台--Hadoop集群框架研究的基础上给出了一种基于Hadoop的Web挖掘平台。

发明内容

本发明要解决的技术问题是：本发明针对目前运行于单机集中平台上的Web挖掘系统不能满足海量数据处理的问题，提供一种基于hadoop的海量数据挖掘方法。

本发明所采用的技术方案为：

基于hadoop的海量数据挖掘方法，所述方法通过将遗传算法与Hadoop平台的Map/Reduce并行计算框架进行融合，用于Hadoop集群环境中的Web数据分析。

所述方法操作步骤如下：

1）作业提交：用户提交基于MapReduce编程规范编写的作业；

2）任务指派：作业控制节点（JobTracker）根据作业的情况，计算出需要的Map任务数M和Reduce任务数R，并根据数据分布情况和对应节点的负载，将Map任务分给存储该任务对应的数据且负载最轻的任务执行节点（TaskTracker），同时根据作业结果的要求，分配相应任务执行节点（TaskTracker）执行Reduce任务；

3）任务数据读取：被分配到Map子任务的任务执行节点（TaskTracker）读入已经分割好的数据作为输入，经过处理后生成key/value对；

4）Map任务执行：任务执行节点（TaskTracker）调用从作业控制节点（JobTracker）获取到的用户编写的Map函数，并将中间结果缓存在内存中；

5）本地写中间结果：内存中的中间结果达到一定阈值后，会写入到任务执行节点（TaskTracker）地的磁盘中，这些中间数据通过分区函数分成R个分区，并将它们在本地磁盘的位置信息发送给作业控制节点（JobTracker），然后作业控制节点（JobTracker）将位置信息发送给执行Reduce子任务的任务执行节点（TaskTracker）；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮软件集团有限公司，未经浪潮软件集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201610098011.7/2.html，转载请声明来源钻瓜专利网。

上一篇：网络平台公共账号分类方法及装置
下一篇：一种基于空间数据的SVG/CIM图形模型文件的生成方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于hadoop的海量数据挖掘方法在审

专利文献下载