[发明专利]一种数据分析方法和设备有效
申请号: | 201010102295.5 | 申请日: | 2010-01-28 |
公开(公告)号: | CN102141963A | 公开(公告)日: | 2011-08-03 |
发明(设计)人: | 张清 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F12/02 | 分类号: | G06F12/02 |
代理公司: | 北京鑫媛睿博知识产权代理有限公司 11297 | 代理人: | 龚家骅 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 分析 方法 设备 | ||
技术领域
本申请实施例涉及数据存储技术领域,特别涉及一种数据分析方法和设备。
背景技术
缓慢变化维度(Slowly Changing Dimensions,SCD)是在数据仓库中随着时间的推移存储和管理当前数据和历史数据的维。它被视为并实现为跟踪维记录历史过程中最关键的数据抽取、转换和加载(Extraction TransformationLoading,ETL)任务之一。
SCD分为三种类型,可以使用Warehouse Builder定义、部署并加载这三种类型的SCD,分别为:
Type 1 SCD-覆盖
在Type 1 SCD中,新数据将覆盖现有数据。因此,现有数据将丢失,而不会存储在其他任何地方。这是创建的维的默认类型,不需要指定任何附加信息,即可创建Type 1 SCD。
Type 2 SCD-创建另一个维记录
Type 2 SCD可保留值的完整历史。如果选定属性的值发生更改,当前记录会关闭。系统会使用更改后的数据值创建一个新记录,这个新记录将成为当前记录。每个记录都包含有效时间和过期时间,以标识记录处于活动状态的时间段。
Type 3 SCD-创建当前值域
Type 3 SCD可为某些选定的级别属性存储两个版本的值。每个记录都会存储选定属性的上一个值和当前值。如果任一选定属性的值发生更改,就会将当前值存储为旧值,而新值将成为当前值。
其中,SCD Type 2和Type 3可用于OWB 10gR2的企业ETL组件。利用核心ETL特性,只能使用SCD Type 1,即Do not keep history选项。
如果存储类型为多维联机分析处理(Muiltdimension On-Line AnalysisProcessing,MOLAP),则不能创建Type 2或Type 3缓慢变化维度。
常规的缓慢变化维度方法定位在单条商业记录的生命周期管理上,对单条商业数据的开始时间,结束时间做了记录,从而能够通过指定的商业日期,取出该商业日期的商业数据快照,而且要扫描的输入输出(Input-Output,IO)成本比该业务日期的真实大小要大很多,从而影响了应用在取快照的效率,只能解决快照的完整性,而不能解决使用快照的便捷和高性能。
现有的常规缓慢变化维技术的缺点是每次预处理和业务取快照都要扫描比指定快照大很多的IO,从而限制了预处理的效率和使用快照的效率。
发明内容
本申请实施例提供一种数据分析方法和设备,减少快照处理数据的数据量,提高应用处理的效率。
本申请实施例提供一种数据分析方法,包括以下步骤:
根据不同的时间范围创建相应的数据分区;
根据数据的生命周期,将所述数据存储至时间范围与所述生命周期相对应的数据分区中。
优选的,所述根据不同的时间范围创建相应的数据分区,具体为:
根据当前时间所能对应的一个或多个时间范围,分别创建一个或多个相对应的数据分区;或,
根据当前各已存在数据的生命周期所对应的时间范围,分别创建一个或多个相对应的数据分区。
优选的,根据数据的生命周期,将所述数据存储至时间范围与所述生命周期相对应的数据分区中,具体为:
将所述数据所对应的数据分配在相应的所述数据分区,所述数据的生命周期与所述数据分区的时间范围相匹配;
其中,所述数据分区的时间范围为所述数据分区业务开始时间至结束时间。
优选的,所述数据的生命周期具体包括:
当所述数据为新增数据时,所述数据的生命周期为进行新增操作的当前日期至无穷大;
当所述数据被修改时,修改后的数据的生命周期为进行修改操作的当前日期至无穷大,修改前的数据的生命周期截止到进行修改操作的当前日期;
当所述数据被删除时,被删除的数据的生命周期截止到进行删除操作的当前日期。
优选的,所述方法,还包括:
根据业务日期在当前存在的数据分区中确定与所述业务日期相匹配的数据分区,并在所述数据分区中获取与所述业务日期对应的数据快照。
优选的,根据业务日期在当前存在的数据分区中确定与所述业务日期相匹配的数据分区,具体包括,
当所述数据分区满足,所述数据分区所对应时间范围的开始时间≤所述业务日期<所述数据分区所对应时间范围的结束时间时,所述数据分区与所述业务日期相匹配,确定所述数据分区为与所述业务日期相匹配的数据分区。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010102295.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置