[发明专利]基于Hadoop平台的电信运营商海量数据处理方法无效
申请号: | 201310336147.3 | 申请日: | 2013-08-05 |
公开(公告)号: | CN103425762A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 沈建华;王翔 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 刘琦 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Hadoop平台的电信运营商海量数据处理方法,包括以下步骤:首先使用Sqoop工具将原始数据系统数据抽取到Hadoop本地服务器上;然后在Hive中建表并根据运营商数据仓库的数据模型和业务需求编写Hive脚本;接着执行Hive脚本将源数据转换后装载到Hive的目标表中;最后根据需求编写Hive查询语句或者MapReduce程序对目标表中的数据进行查询分析。本方法在满足业务需求的基础上充分利用Hadoop平台中的各种工具实现电信运营商海量数据处理,极大的提高了工作效率。 | ||
搜索关键词: | 基于 hadoop 平台 电信 运营商 海量 数据处理 方法 | ||
【主权项】:
一种基于Hadoop平台的电信运营商海量数据处理方法,其特征在于,该方法包括以下步骤:1)通过Hadoop平台的数据传输工具Sqoop,将原始数据系统中的数据抽取到Hadoop集群本地服务器上;2)在Hive数据仓库中建表,根据需求不同将表分为临时层、细节层、中间层和应用层,然后把抽取到Hadoop集群本地服务器上的数据导入到Hive数据仓库中对应的源表里;所述临时层用于存储临时数据,用完即删,所述细节层用于存放日表或者列数较少的表,所述中间层用于存放月表和列数较全的表,所述应用层用于存放应用报表;3)针对业务需求和数据模型撰写设计文档,描述源表和目标表之间的字段对应关系,以及ETL逻辑,然后按照设计文档开发Hive语句并封装成Hive脚本,在所述Hive脚本中添加日志信息以便于后期维护管理;4)执行Hive脚本,从Hive源表中抽取数据,然后按照源表和目标表之间的字段对应关系,以及ETL逻辑,将抽取的源表数据转换成目标表数据,并将所述目标表数据装载到目标表中,上述执行过程中,对Hive脚本执行情况进行监控,如果报错,则查询日志信息并定位错误,修改Hive脚本后重新执行;5)根据具体业务需求,在Hive客户端中,对所述步骤4)中装载后的目标表数据进行简单查询或数据挖掘分析。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201310336147.3/,转载请声明来源钻瓜专利网。