[发明专利]基于Hadoop平台的电信运营商海量数据处理方法无效
申请号: | 201310336147.3 | 申请日: | 2013-08-05 |
公开(公告)号: | CN103425762A | 公开(公告)日: | 2013-12-04 |
发明(设计)人: | 沈建华;王翔 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F9/44 |
代理公司: | 江苏爱信律师事务所 32241 | 代理人: | 刘琦 |
地址: | 210003 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 hadoop 平台 电信 运营商 海量 数据处理 方法 | ||
1.一种基于Hadoop平台的电信运营商海量数据处理方法,其特征在于,该方法包括以下步骤:
1)通过Hadoop平台的数据传输工具Sqoop,将原始数据系统中的数据抽取到Hadoop集群本地服务器上;
2)在Hive数据仓库中建表,根据需求不同将表分为临时层、细节层、中间层和应用层,然后把抽取到Hadoop集群本地服务器上的数据导入到Hive数据仓库中对应的源表里;所述临时层用于存储临时数据,用完即删,所述细节层用于存放日表或者列数较少的表,所述中间层用于存放月表和列数较全的表,所述应用层用于存放应用报表;
3)针对业务需求和数据模型撰写设计文档,描述源表和目标表之间的字段对应关系,以及ETL逻辑,然后按照设计文档开发Hive语句并封装成Hive脚本,在所述Hive脚本中添加日志信息以便于后期维护管理;
4)执行Hive脚本,从Hive源表中抽取数据,然后按照源表和目标表之间的字段对应关系,以及ETL逻辑,将抽取的源表数据转换成目标表数据,并将所述目标表数据装载到目标表中,上述执行过程中,对Hive脚本执行情况进行监控,如果报错,则查询日志信息并定位错误,修改Hive脚本后重新执行;
5)根据具体业务需求,在Hive客户端中,对所述步骤4)中装载后的目标表数据进行简单查询或数据挖掘分析。
2.根据权利要求1所述的基于Hadoop平台的电信运营商海量数据处理方法,其特征在于,所述步骤5)中,简单查询按照在Hive的客户端上编写的Hive查询语句进行,数据挖掘分析按照在Hadoop中编写MapReduce程序进行。
3.根据权利要求2所述的基于Hadoop平台的电信运营商海量数据处理方法,其特征在于,所述MapReduce函数按照协同过滤算法、PageRank矩阵分块算法、关联分析算法或聚类分析算法编写。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310336147.3/1.html,转载请声明来源钻瓜专利网。