[发明专利]一种基于动态镜像的实时数据仓库数据预存取方法有效
申请号: | 201410447265.6 | 申请日: | 2014-09-03 |
公开(公告)号: | CN104268159B | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 毛莺池;王久龙;闵伟;平萍;贾必聪 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京苏高专利商标事务所(普通合伙)32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 实时 数据仓库 数据 存取 方法 | ||
技术领域
本发明涉及一种实时数据仓库中实时数据访问预存取方法,具体涉及一种基于动态镜像技术的实时数据仓库中数据查询竞争处理方法。
背景技术
近年来,电子信息数据在企业的运营中越来越重要,企业需要对电子信息数据进行高效、及时、精确地分析。传统的数据仓库采用ETL工具周期性地从数据源中抽取数据,经过处理后加载到数据仓库,而数据抽取的周期通常为一个月一次、一周一次、或者一天一次,通常只支持历史数据的查询与分析,不能实时捕获数据源中的变化。然而,在实时数据仓库中,实时数据导入与实时数据查询会引发查询竞争问题,其产生的冲突将严重影响联机在线分析(On-Line Analysis Processing,OLAP)的精度和效率,降低了数据仓库的性能。
面对实时数据仓库中的数据查询与导入引发的竞争问题,近年来,开展了许多研究工作,包括提高数据库的性能、增加外部实时数据缓存、即时(Just In Time)合并外部数据缓存信息、反向即时数据合并、实时分区、主动分区等。
(1)单独实时数据缓存方法是使用一种与数据仓库分离的外部缓存。外部数据缓存持续更新,数据仓库使用数据抽取与转换工具(ETL工具)以批处理模式进行数据更新,所有实时数据或准实时数据的查询直接定位到外部的数据缓存,从而避免了在数据仓库中的查询竞争问题。但是,如果数量巨大的复杂查询与分析运行在外部实时数据缓存,则同样会出现数据仓库的查询竞争问题。
(2)简化和限制实时报表方法,需要实时数据的用户只能发出简单的查询要求,限制复杂查询语句。这种方法可以消除查询竞争,但是无法满足用户对复杂查询的要求。
(3)升级硬件,可以为高端的SMP数据库系统增加更多的节点或者为数据仓库配备更快的处理器和更大的内存。这种方法只能短期内解决问题,但是增加了成本并且可扩展性低。
(4)反向即时数据合并,将所需要的历史数据临时反向加载到实时数据缓存中,查询在缓存中进行。这种方法可以有效的解决查询竞争,但是,查询结果的精度却不尽理想。
(5)实时分区是将实时数据进行数据量均衡的分区,然后分别各分区数据进行查询导入操作。这种方法有效的缓解了查询竞争,但是关于分区的个数和数据量的均衡算法的研究一直未成熟,分区算法随着分区个数增加时间复杂度也线性增加,海量数据环境下给系统带来沉重的负担,难以满足实时性的要求。
因此,如何解决实时数据仓库中实时数据查询与数据导入引发的查询竞争问题,在保证数据查询精度的前提下,提供实时数据查询的效率,是实时数据仓库数据存取预处理必须解决的问题,也是本发明所要解决的问题。
发明内容
本发明的目的是为了解决在实时数据仓库中实时数据导入和实时数据查询相冲突的问题。当ETL工具连续向实时数据存储区加载数据时,此时,用户也会对实时数据存储区进行发送多次数据查询,而多次数据查询结果纳入同一个统计结果。由于数据被实时加载到实时数据存储区,若不考虑新加载的数据,OLAP查询结果的精度会受到影响;若考虑新加载的数据,查询的效率会降低。如何解决查询效率与查询结果精度的矛盾,本发明披露一种基于动态镜像结构的实时数据仓库预存取方法,解决此问题。
技术方案:一种基于动态镜像的实时数据仓库数据预存取方法,包括以下三个方面:
(1)实时数据仓库的分类ETL结构。
(2)在数据仓库外部构建动态存储区域,动态存储区域由多个数据镜像与基于双重链接的镜像索引组成;
(3)动态镜像管理,包括镜像创建与回收、基于双重链接的镜像索引维护。
本发明披露的基于动态镜像的实时数据仓库数据预存取方法,所述内容(1)实时数据仓库的分类ETL结构的具体包括如下:
(1.1)实时数据仓库的分类ETL结构包括实时ETL和历史ETL。ETL(Extract Transform Load)过程可以实现对数据的清洗、转化和加载。OLTP系统中的数据,根据其数据生成时间戳,将查询任务提交之前与之后存入OLTP的数据分别由历史ETL和实时ETL对数据进行清洗、转化和加载。
(1.2)数据仓库存储区域分成实时数据存储区和静态数据存储区。历史ETL将OLTP系统中的历史数据清洗、转化和加载后,直接存入数据仓库的静态数据存储区。实时ETL将OLTP系统中的实时数据清洗、转化和加载后,存入动态存储区域,然后根据系统触发条件,由动态存储区域存入数据仓库的实时数据存储区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410447265.6/2.html,转载请声明来源钻瓜专利网。