[发明专利]一种基于Hadoop的海量web数据挖掘方法在审

申请号：	201510235579.4	申请日：	2015-05-11
公开（公告）号：	CN104809231A	公开（公告）日：	2015-07-29
发明（设计）人：	王之滨;孙海峰;崔乐乐	申请（专利权）人：	浪潮集团有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	济南信达专利事务所有限公司 37100	代理人：	姜明
地址：	250101 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于Hadoop的海量web数据挖掘方法，属于计算机数据处理领域；本发明遗传算法与Hadoop的MapReduce进行融合，针对Hadoop的分布式文件存储系统HDFS中的海量Web数据进行挖掘，进一步验证该平台的高效性，在该平台上利用融合后的算法挖掘Web日志中用户的偏爱访问路径，实验结果表明，在Hadoop中运用分布式算法处理大量的Web数据，可以明显提高Web数据挖掘的效率。
搜索关键词：	一种基于 hadoop 海量 web 数据挖掘方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种基于Hadoop的海量web数据挖掘方法，其特征是：搭建数据挖掘环境：在集群服务器中选择充当NameNode和MapReduce中的JobTracker的服务器，其余为计算节点和数据存储节点，测试数据集来自Web服务器机房的服务器日志；数据挖掘作业提交：用户提交基于MapReduce编程规范编写的作业；任务指派：计算出需要的Map任务数和Reduce任务数，并将Map任务分给任务执行节点TaskTracker；同时分配相应TaskTracker执行Reduce任务；任务数据读取：被分配到Map子任务的TaskTracker节点读入已经分割好的数据作为输入，经过处理后生成key/value对；Map任务执行：TaskTracker调用从JobTracker获取到的用户编写的Map函数，并将中间结果缓存在内存中；本地写中间结果：内存中的中间结果达到一定阈值后，写入到TaskTracker本地的磁盘中；远程读中间文件：执行Reduce的TaskTracker从JobTracker中获取子任务，根据中间结果的位置信息通过socket拉取数据，并利用中间结果的key值进行排序，将具有相同key的对进行合并；执行Reduce任务：执行Reduce任务的TaskTracker遍历所有排序后的中间数据，传递给用户的Reduce函数，执行Reduce过程；输出结果：当所有的Map任务和Reduce任务都完成时，JobTracker控制将Reduce结果写到HDFS之上。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司，未经浪潮集团有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510235579.4/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于Hadoop的海量web数据挖掘方法在审

专利文献下载