[发明专利]在目标服务器构建ETL系统的处理方法及装置有效
申请号: | 201410736286.X | 申请日: | 2014-12-04 |
公开(公告)号: | CN104462344B | 公开(公告)日: | 2018-04-03 |
发明(设计)人: | 储雨知 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司11240 | 代理人: | 李志刚,吴贵明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标 服务器 构建 etl 系统 处理 方法 装置 | ||
技术领域
本发明涉及数据处理领域,具体而言,涉及一种在目标服务器构建ETL系统的处理方法及装置。
背景技术
随着大数据时代的来临,数据库的高可用性变得越来越重要。在大数据领域中,数据仓库技术占据着重要地位,而数据仓库技术的一大核心技术就是数据抽取、转换和装载(Extract Transform Load,简称为ETL)。ETL依据临时数据库对源数据进行抽取、清洗、转换和装载等工作,然后将处理好的数据存入被称为“数据仓库”的数据库中。在实际生产环境中,ETL系统往往包含三种数据库,即源数据库,临时数据库,数据仓库。源数据库提供数据源;临时数据库用于存储各类临时数据;数据仓库包含事实表和维度表,存储经过处理的数据。
数据库复制技术(Replication)是一种常见的高可用性技术,它用于将发布者数据库的数据同步到目标服务器上。该技术功能强大,比如可以实时同步,也可以进行负载均衡、冲突处理等。目前许多基于Replication的高可用性方案,都是针对数据仓库的,即对数据仓库做同步,这样,当发布者数据库宕机的时候,目标服务器的数据仓库依然可以访问。在很多场景下,当发布者数据库宕机的时候,不仅需要目标服务器中的数据仓库可以被访问,还希望在目标服务器中执行ETL操作。单单使用Replication技术并不能顺利达到这个目的。因为在目标服务器中执行ETL,需要把临时数据库表结构复制过去。若通过Replication技术来同步临时数据库,就会影响发布者数据库正常的ETL运行。因为,若一个数据表配置了Replication,就无法对它执行清空操作。而在ETL执行时,在临时数据库储存数据前,会对该数据库的表做一次清空操作以清空脏数据。所以,这种情况下,发布者数据库的ETL会执行出错。若这些临时数据库通过其他方式移动到目标服务器上,又各有缺陷。通常,ETL系统包含三种数据库,即源数据库,临时数据库和数据仓库。因此现有技术中无法在目标服务器中构建ETL系统,更无法在目标服务器中执行ETL。
针对现有技术中在保证源服务器的ETL正常运行的情况下,无法在目标服务器中构建ETL系统的问题,目前尚未提出有效的解决方案。
发明内容
本发明的主要目的在于提供一种在目标服务器构建ETL系统的处理方法及装置,以解决现有技术中在保证源服务器的ETL正常运行的情况下,无法在目标服务器中构建ETL系统的问题。
为了实现上述目的,根据本发明的一个方面,提供了一种在目标服务器构建ETL系统的处理方法。
根据本发明的在目标服务器构建ETL系统的处理方法包括:该ETL系统包括:临时数据库、源数据库和数据仓库,临时数据库为用于临时存储数据的数据库,源数据库为用于存储原始数据的数据库,数据仓库用于存储经过ETL处理后的数据,临时数据库、源数据库和数据仓库均存储在源服务器中,该方法包括:将源数据库和数据仓库分别从源服务器同步至目标服务器;在源服务器中获取临时数据库中临时表的脚本代码,其中,临时数据库包括临时表,脚本代码为用于创建临时表的代码;以及根据脚本代码在目标服务器上创建目标临时数据库。
进一步地,根据脚本代码在目标服务器上创建目标临时数据库包括:在目标服务器上创建目标数据库;以及在目标数据库中执行脚本代码,得到临时表;根据临时表构成目标临时数据库。
进一步地,将源数据库和数据仓库分别从源服务器同步至目标服务器之前,该方法还包括:确定源数据库和数据仓库;以及分别对源数据库和数据仓库进行配置,得到配置源数据库和配置数据仓库,其中,配置源数据库是用于将源数据库预先进行配置执行同步操作后的数据库,配置数据仓库是用于将数据仓库预先进行配置执行同步操作后的数据库。
进一步地,分别对源数据库和数据仓库进行配置包括:分别获取源数据库和数据仓库中已有的配置指令,其中,配置指令为用于指示对源数据库和数据仓库进行预先配置执行同步操作的指令;以及通过配置指令分别对源数据库和数据仓库进行配置,或者,接收外部输入的配置代码,其中,配置代码为用于对源数据库和数据仓库进行预先配置执行同步操作的代码;以及根据配置代码生成的相应配置指令分别对源数据库和数据仓库进行配置。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410736286.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:动画的播放帧频调整方法及装置
- 下一篇:严寒地区混凝土伸缩缝施工养护方法