[实用新型]一种基于Hadoop的海量数据实时分析处理系统有效
申请号: | 201220257946.2 | 申请日: | 2012-06-04 |
公开(公告)号: | CN202634489U | 公开(公告)日: | 2012-12-26 |
发明(设计)人: | 包丽霞 | 申请(专利权)人: | 包丽霞 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100081 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 hadoop 海量 数据 实时 分析 处理 系统 | ||
技术领域
本实用新型涉及云计算领域中的基于Hadoop框架的海量数据实时处理需求系统,更具体地,涉及在数据应用领域中将海量数据的实时处理特性应用于自动处理系统的数据分析与数据处理中。
背景技术
云计算已经被看做IT业的新趋势,可以粗略的定义为使用自己环境之外的某一服务提供的可伸缩计算资源,并按使用量付费,可以通过Internet访问“云”中的任何资源,而不需要担心计算能力、贷款、存储、安全性和可靠性问题。
从企业角度看,日益增长的信息已经很难存储在标准关系数据库甚至数据仓库中,例如,怎样查询一个十亿行的表,怎样跨越数据中心所有服务器上的所有日志来进行一个数据查询,更为复杂的是很多数据是非结构化或者半结构话的,这就更难查询了。
Hadoop是一种框架,它可以分布式地操纵大量数据,在海量数据处理上具备了很多的优势:
1.高容错性:从设计上HDFS已经假设了各服务器节点可能宕机,或者网络可能分割。这些问题会导致某些机器不可用。Hadoop通过如下手段实现了高容错性:
1.1心跳检测和文件复制;
1.2数据完整性检测;
1.3元数据多源备份及Log机制;
1.4集群均衡。
2.高伸缩性:Hadoop集群可以从一台机器扩大到上千台机器。具备很强的应对业务变化的能力。这里的业务变化可以是几个小时之内业务量从波峰到波谷之间的转换,也可以是中长期的业务增长或者变化。
3.高成熟性:业界多家传统IT巨头都在Hadoop上工作,将此系统打磨得相当成熟稳定。基于Hadoop的应用,无须担忧Hadoop本身的稳定性。而且有很多相关的基于Hadoop的套件可以使用例如HBase、Hive、Zookeeper等等都可以基于Hadoop或者结合Hadoop展开运用。
但是,Hadoop框架架构处理海量数据时也存在着一定的劣势,基于Hadoop的Map Reduce架构以支持高容量访问为目标,反而忽略了任务处理的延迟问题,这里是一些典型的不利于实时处理的实现:
1.Hadoop Map Reduce架构的任务分配中心不会将信息推到服务器,而是让服务器通过心跳去申请任务。而心跳的时间间隔一般是3秒,随着服务器数增长还要增加。
对实时处理的要求而言,这是相当耗费时间的工作。
2.Hadoop本身是一个框架。基于框架的通用性,Map Reduce本身的代码文件集也会在HDFS(文件系统)中传递,然后到服务器上展开,通过启动新JVM进程装载并运行。这是相当耗费时间的工作。而在一个Job的运行过程中,类似的JVM进程启动停止有5、6个之多,无法适应实时处理的需求。
3.Hadoop本身是一个框架。基于框架的通用性,Map Reduce的结果也会写入HDFS中。用户只能再通过访问HDFS得到相应的结果。这又白白地耗费了一段时间。
由此可见,基于以上Hadoop Map Reduce架构的特点,我们可以看出,Hadoop Map Reduce适合通过批处理方式访问海量数据,但无法满足海量数据的实时处理的需求。实时商业智能建设的主要目标是支持实时决策,这就对海量数据处理的即时、快速、稳定提出了更高的要求。
发明内容
本实用新型主要目的是基于Hadoop Map-Reduce架构中对海量数据实时性处理的特点和劣势,构建服务于商业智能软件自身的Map-Reduce框架,大大提升Hadoop平台实时运行Job的能力。完成高效信息的交换,减少实时传输和部署的时长,使整个商业智能系统对海量数据实时处理方面的能力得到一个很大的提升。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于包丽霞,未经包丽霞许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201220257946.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种皮带给料装置
- 下一篇:内置光耦型用电采集终端控制回路状态检测装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置