[发明专利]分布式数据同步到数据仓库的方法及装置有效
申请号: | 200910252471.0 | 申请日: | 2009-12-11 |
公开(公告)号: | CN102096685A | 公开(公告)日: | 2011-06-15 |
发明(设计)人: | 李学升 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分布式 数据 同步 数据仓库 方法 装置 | ||
技术领域
本申请涉及数据存储领域,尤其涉及一种分布式数据同步到数据仓库的方法及装置。
背景技术
数据库(Data-Base,DB)是按照某种数据模型组织的数据集合,该数据集合的数据结构独立于使用它的应用程序;数据库是面向事务设计的,是生产系统的数据平台,一般存储在线交易数据。数据仓库(Data Warehouse,DW)是集成的(Integrated)、相对稳定的(Non-volatile)、反映历史变化(Time Variant)的数据集合;数据仓库是面向主题(Subject Oriented)设计的,是分析系统的数据平台,一般存储历史数据。
生产系统的数据库在访问量和存储的数据量越来越大的情况下,采取了将现有集中式数据库升级为分布式数据库的解决方案。集中式数据库是指数据库软件部署在一台存储服务器中,相应的,数据存储在集中式数据库的一个表中(本申请文件中,将集中式数据库中的一个表称为大表);分布式数据库是指数据库软件部署在多台独立的存储服务器中,相应的,集中式数据库的大表中存储的全部数据按照特定的分表规则划分到分布式数据库的多个表中(本申请文件中,将分布式数据库中的多个表称为分表),也就是说分布式数据库将一个逻辑表中的数据分布到多个物理表中。
生产系统通过采用分布式数据库降低了对单台存储服务器的软硬件要求,但是在数据仓库的ETL(Extraction-Transformation-Loading,数据抽取、转换和装载)过程中,数据库中的数据同步到数据仓库的流程会发生巨大的变化。ETL是数据仓库中的重要环节,负责将分布式、异构数据源中的数据抽取到临时中间层,进行清洗、转换、集成,最后装载到数据仓库中,成为联机分析处理、数据挖掘的基础。常用的ETL工具包括Informatica、Datastage、OWB、DTS等。在采用集中式数据库的情况下,只需将集中式数据库的大表中的数据同步到数据仓库的一个表中即可,而在采用分布式数据库的情况下,针对每一个分表在数据仓库中建立对应的表(本申请文件中,将数据仓库中为各分表对应建立的表称为映射表),首先将生产系统中各分表的数据导出为文本,然后导入到数据仓库对应的映射表中,最后将数据仓库各映射表中的数据合并到一个表中(本申请文件中,将数据仓库中数据合并到的表称为汇总表)。
在分布式数据库的规模较大,也就是分表的数量较多的情况下,例如有的大表会分成1024个分表,将导致数据仓库中表的数量暴涨,使得数据仓库中表的维护数量和难度比较大,而且在同步流程中需要对数据仓库中所有的映射表进行合并操作,过程繁杂,使得同步流程耗费的时间较长,极易出错。可见,现有分布式数据同步到数据仓库的方案,数据仓库中表的维护数量和难度较大,同步流程复杂,耗费时间长,可靠性低,成为数据仓库的ETL过程的瓶颈。
申请内容
本申请提供一种分布式数据同步到数据仓库的方法及装置,用以解决现有技术提供的方案中,数据仓库中表的维护数量和难度较大,同步流程复杂,耗费时间长,可靠性低的问题。
本申请提供的分布式数据同步到数据仓库的方法,所述方法包括:
将分布式数据库的每一个分表中的增量数据导出为文本,并对应生成文本文件;
将各文本文件中的文本导入到数据仓库的增量表中;
根据特定的分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中,所述分表规则是指将集中式数据库的大表中存储的全部数据划分到分布式数据库的多个分表中时所遵循的规则。
本申请提供的分布式数据同步到数据仓库的装置,所述装置包括导出单元、导入单元和汇总单元,其中:
所述导出单元,用于将分布式数据库的每一个分表中的增量数据导出为文本,并对应生成文本文件;
所述导入单元,用于将各文本文件中的文本导入到数据仓库的增量表中;
所述汇总单元,用于根据特定的分表规则将增量表中的全部增量数据合并到数据仓库的汇总表中,所述分表规则是指将集中式数据库的大表中存储的全部数据划分到分布式数据库的多个分表中时所遵循的规则。
本申请提供的分布式数据同步到数据仓库的方法及装置,数据仓库的ETL过程中,将每一个分表中的增量数据导出为文本,再将文本直接导入到增量表中,最后将增量表中的全部增量数据合并到汇总表,彻底摒弃了在数据仓库中为全部分表建立对应数量的映射表的同步流程,同步任务只需在数据仓库中新建两个表(增量表和汇总表)即完成数据同步,省略了同步流程中的冗余操作,降低了耗费的时间,提升了同步效率和可靠性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910252471.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置