[发明专利]一种基于HADOOP平台的事实并行处理方法在审

专利信息
申请号: 201510259107.2 申请日: 2015-05-20
公开(公告)号: CN104866562A 公开(公告)日: 2015-08-26
发明(设计)人: 李继云;孙莉;解书亮;何刚;丁祥武;乐嘉锦;施巍 申请(专利权)人: 东华大学
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹
地址: 201620 上*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 hadoop 平台 事实 并行 处理 方法
【说明书】:

技术领域

发明涉及一种基于HADOOP平台下的分布式ETL过程中事实并行处理方法。

背景技术

在数据仓库领域,数据抽取、转换和加载(Extract-Transform-Load,ETL)过程主要负责从不同的数据源收集数据,按照用户定义的业务规则和需求,对收集的数据集进行转换和清洗,最后按照目标数据仓库的结构加载到数据仓库中。如今,传统的ETL技术正面临着信息爆炸的新挑战,比如,一个企业每天收集几百GB的数据进行处理和分析是相当普遍的。但是,如此巨大的数据量将使传统的ETL方法极度的消耗时间,而且用户要求处理数据的时间窗口又比较短。

因此,为了能够快速适应变化的业务环境和客户需求,并行计算技术的使用是获取最佳性能和高扩展性的关键所在。近几年来,在密集型数据领域,新颖的云计算技术:MapReduce已经广泛用于并行计算。首先,MapReduce是Hadoop框架的一个通用编程模型,该模型可以向并行的ETL过程提供进程间的通信,容错,负载均衡和作业调度。另外,MapReduce也是一个非常流行的框架,本身是按照大规模密集型数据处理的站点标准而建立的。因而,Hadoop平台下的分布式ETL处理很有应用前景。事实处理是ETL过程的第二步,该过程主要涉及到引用维度表中代理键的查找。其中在维度建模理论中渐变维度主要有两种类型,分为类型1和类型2。类型1的渐变维度采用的是直接对历史进行更新的方法,也就是说,不需要记录维度的历史变化情况;类型2的渐变维度采用的是更新-插入的方法,此类型的渐变维度需要额外添加两个时间戳字段和一个标识字段,其中两个时间戳字段分别示维度的开始生效时间和失效时间,标识字段表示维度是否为当前正在使用。然而,在Hadoop平台下,代理键的查找效率不是很高。因为事实的数据量比维度的数据量大几个甚至几十个数量级,事实数据的处理是影响整个系统性能的关键点,因而在Hadoop平台下快速高效的查找代理键的方法是十分重要和必需的。

发明内容

本发明的目的是提供一种基于Hadoop平台下的事实并行处理实现策略,实现Hadoop平台下的事实并行处理,提高事实的处理效率。

为了达到上述目的,本发明的技术方案是提供了一种基于HADOOP平台的事实并行处理方法,其特征在于,包括以下步骤:

步骤1、将渐变维度数据集CacheDims存入本地缓存;

步骤2、初始化维度数据集Dims=Φ,同时从本地缓存中获取渐变维度数据集CacheDims,转步骤3;

步骤3、如果渐变维度数据集CacheDims是类型2的渐变维度,则转步骤4,否则转步骤5;

步骤4、如果渐变维度数据集CacheDims未遍历结束,则从中读取一行记录,记为Dim,从Dim获取自然键NK、代理键SK、维度开始生效时间ST和维度开始失效时间ET,并存入维度数据集Dims中,继续步骤4,否则转步骤6;

步骤5、如果渐变维度数据集CacheDims未遍历结束,则从中读取一行记录,记为Dim,从Dim获取自然键NK和代理键SK,并存入维度数据集Dims中,继续步骤5,否则转步骤6;

步骤6、输出维度数据集Dims;

步骤7、如果维度数据集Dims中的值value不为空,则转步骤8,否则结束;

步骤8、如果维度数据集Dims为类型2的渐变维度,则转步骤9,否则转步骤10;

步骤9、遍历维度数据集Dims,将值value中相应的字段和自然键NK、维度开始生效时间ST和维度开始失效时间ET进行匹配,查找出正确的代理键SK,将代理键SK作为key’,值value中的度量值作为value’,转步骤11;

步骤10、遍历维度数据集Dims,将值value中相应的字段和自然键NK进行匹配,查找出正确的代理键SK,将代理键SK作为key’,值value中的度量值作为value’,转步骤11;

步骤11、输出<key’,value’>。

本方法提供了一种基于Hadoop平台下的事实并行处理方法,针对不同数据量的情况,提供了相应的并行处理方法,使其能实现多路并行处理;同时也根据两种不同类型的渐变维度表,分别考虑了不同的查找方法,从而实现了Hadoop平台下的事实并行处理,提高了事实处理的效率。

具体实施方式

为使本发明更明显易懂,兹以优选实施例作详细说明如下。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东华大学,未经东华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510259107.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top