[发明专利]基于Hadoop平台的电信运营商海量数据处理方法无效
申请号: | 201310336147.3 | 申请日: | 2013-08-05 |
公开(公告)号: | CN103425762A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 沈建华;王翔 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 刘琦 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 平台 电信 运营商 海量 数据处理 方法 | ||
技术领域
本发明提出一种基于Hadoop平台的电信运营商海量数据处理方法,属于计算机通信、大数据处理领域。
背景技术
移动互联网的快速发展,使得用户产生和应用的数据呈现飞速增长的趋势,海量数据的出现和数据结构的改变,给电信行业运营商管理和分析处理数据带来了巨大的挑战。传统的基于关系型数据库的处理方法已经无法有效地存储和处理日益增长和新型的业务数据,Hadoop 分布式技术的发展为解决上述问题提供了技术手段。
Hadoop是Apache组织管理的一个开源项目,是基于Google云计算理论Big Table、MapReduce和GFS的软件实现。Hadoop可以使用户在不了解底层细节的情况下开发MapReduce程序,并在价格低廉的商用集群上进行运算和存储,具有可扩展、高容错、经济、可靠、高效等优点。Hadoop的核心组件有两个部分:分布式文件系统(HDFS)和分布式计算模型MapReduce。HDFS是Hadoop的旗舰级文件系统,它以流式数据访问模式来存储超大文件,运行于商用硬件集群上;MapReduce是一个编程模型,用以进行稳定、高效、超大数据量的分析计算。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
Sqoop是在关系型数据库和HDFS间高效传输数据的工具,可以将一个关系型数据库中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进关系型数据库中。
发明内容
技术问题:本发明提出了一种可以解决海量数据给电信运营商带来的处理压力,能够进行高效智能分析和数据挖掘的基于Hadoop平台的电信运营商海量数据处理方法。
技术方案:本发明的基于Hadoop平台的电信运营商海量数据处理方法,包括如下步骤:
1)通过Hadoop平台的数据传输工具Sqoop,将原始数据系统中的数据抽取到Hadoop集群本地服务器上;
2)在Hive数据仓库中建表,根据需求不同将表分为临时层、细节层、中间层和应用层,然后把抽取到Hadoop集群本地服务器上的数据导入到Hive数据仓库中对应的源表里;所述临时层用于存储临时数据,用完即删,所述细节层用于存放日表或者列数较少的表,所述中间层用于存放月表和列数较全的表,所述应用层用于存放应用报表;
3)针对业务需求和数据模型撰写设计文档,描述源表和目标表之间的字段对应关系,以及ETL逻辑,然后按照设计文档开发Hive语句并封装成Hive脚本,在所述Hive脚本中添加日志信息以便于后期维护管理;
4)执行Hive脚本,从Hive源表中抽取数据,然后按照源表和目标表之间的字段对应关系,以及ETL逻辑,将抽取的源表数据转换成目标表数据,并将所述目标表数据装载到目标表中,上述执行过程中,对Hive脚本执行情况进行监控,如果报错,则查询日志信息并定位错误,修改Hive脚本后重新执行;
5)根据具体业务需求,在Hive客户端中,对所述步骤4)中装载后的目标表数据进行简单查询或数据挖掘分析。
本发明一个优选方案的步骤5)中,简单查询按照在Hive的客户端上编写的Hive查询语句进行,数据挖掘分析按照在Hadoop中编写MapReduce程序进行。
上述优选方案中, MapReduce函数可以是按照协同过滤算法、PageRank矩阵分块算法、关联分析算法或聚类分析算法编写。
有益效果:本发明与现有技术相比,具有以下优点:
1)对于PB级并且多样化结构的数据,本发明中提出了一种基于Hadoop平台的数据处理方法,将电信运营商海量数据的特点和Hadoop平台的优势充分结合起来,极大的提高了数据处理的效率,大大减少查询分析的时间。
2)在商业智能要求越来越高的情况下,本发明采用Hive作为数据仓库存储海量用户数据,不仅可以编写简单的Hive查询语句查询结果,还可以编写MapReduce程序对数据进行数据挖掘分析,便于电信运营商开展针对性营销,提高数据利用率。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图和实施例对发明的技术方案进行详细说明:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310336147.3/2.html,转载请声明来源钻瓜专利网。