[发明专利]大数据联机分析处理方法及装置在审
申请号: | 201611168603.8 | 申请日: | 2016-12-16 |
公开(公告)号: | CN106649687A | 公开(公告)日: | 2017-05-10 |
发明(设计)人: | 史立校;亢永杰;王金明 | 申请(专利权)人: | 飞狐信息技术(天津)有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 天津创智天诚知识产权代理事务所(普通合伙)12214 | 代理人: | 周庆路,田阳 |
地址: | 300000 天津市滨海新区天津经济开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 联机 分析 处理 方法 装置 | ||
技术领域
本发明涉及大数据处理技术领域,特别是涉及一种大数据联机分析处理方法及装置。
背景技术
互联网行业一直是大数据的生产者和使用者,尤其是近年互联网+概念的提出,极大的加快了互联网行业的发展,机遇与挑战往往是并存的,互联网的快速发展,给我们带来了宝贵的数据,如果对这些数据进行分析,获取重要的知识,帮助决策者进行决策是各大互联网公司关注的主要问题。OLAP无疑是解决该类问题最好的方式,传统互联网公司针对OLAP,多是依赖MYSQL和HBASE实现。
基于MYSQL方式实现,MYSQL是最好的开源关系型数据库之一,该架构下的OLAP,只需通过编写SQL和存储过程,便可以实现绝大多数的查询分析需求,然而数据量大的时候,单台MYSQL服务器往往无法满足,需要对数据库进行分库分表,将数据按照一定的散列规则,分别存储到多个库表中,查询时再进行组合汇总。
基于HBASE方式实现,HBASE是HADOOP生态圈的重要组成部分,是目前最活跃的NOSQL型数据库,自身具有列式存储,分布式,高可靠性,高性能等特点,所以HBASE越来越受到大家的关注,也被应用在各种场景下,OLAP便是HBASE的一个重要应用领域。基于HBASE的OLAP解决方案,一般是按照维度,将分析可能用到的维度组合进行遍历,然后把这些组合结果存放在HBASE中,查询时只需要根据查询条件构建key,便可以快速获取到结果。
基于MYSQL的OLAP解决方案,为了计算的高效,需要建立索引,这些索引一般比原始数据占用的磁盘空间还要大,当数据量大时,存储会成为严重的问题,对于长期存放历史数据进行大规模数据分析的需求,该方式很难应对。面对大数据计算,MYSQL集群的规模需要很庞大,集群的设计和部署、维护都需要很多的人力物力,对于任何互联网公司这些问题都不会轻易解决。基于HBASE的OLAP,需要将所有维度进行组合存储,在维度增长的时候,结果的增长量是指数级的,对这些结果进行入库操作也需要很多的计算资源,同样入库以后需要占用大量的存储资源,然而绝大多数维度组合在后期的统计分析中不会被用到,造成资源的浪费。
发明内容
本发明的目的是针对现有技术中存在的技术缺陷,而提供一种大数据联机分析处理方法及装置。
为实现本发明的目的所采用的技术方案是:
一种大数据联机分析处理方法,包括入库步骤和查询步骤,
所述的入库步骤包括,
将经ETL处理的数据读入内存并根据预先设定的时间粒度,按照维度加时间粒度做键值的方式进行累加计算,达到时间粒度上限时将内存中的数据块保存到本地磁盘;
首先横向将所述的数据块按照时间戳及切分规则,将数据块切分成一个个的小文件;其次纵向根据维度列构建维度词典,并按照b i tmap进行压缩使每列指标进行单独存储生成压缩数据;
按照LRU算法,根据数据入库和使用情况将压缩数据分为冷热数据并分别存储;
所述的查询步骤包括,
查询发起后根据散列规则将查询任务下发到各个计算节点,计算节点准备数据并分别进行计算,各个计算节点将自身计算的结果数据发送给查询代理机,查询代理机对这些结果数据进行最后的汇总并返回。
经ETL处理的数据调度分配至计算节点进行聚合计算。
还包括将查询结果进行内存缓存,当相同查询再次发起可以实现毫秒返回。
热数据为最近入库数据或最近使用的数据,冷数据为长期不用的数据,将热数据放入各个计算节点本地磁盘进行存储,冷数据存储在HDFS中。
计算节点准备数据并分别进行计算包括计算节点根据自身持有的数据和查询需要的数据,判断是否需要从另行存储的冷数据获取数据。
一种大数据联机分析处理装置,包括,
入库预计算模块,用以将经ETL处理的数据读入内存并根据预先设定的时间粒度,按照维度加时间粒度做键值的方式进行累加计算,达到时间粒度上限时将内存中的数据块保存到本地磁盘;
压缩存储模块,用以首先横向将所述的数据块按照时间戳及切分规则,将数据块切分成一个个的小文件;其次纵向根据维度列构建维度词典并按照bitmap进行压缩,每列指标进行单独存储生成压缩数据;
冷热分储模块,用以按照LRU算法,根据数据入库和使用情况将压缩数据分为冷热数据并分别存储。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于飞狐信息技术(天津)有限公司,未经飞狐信息技术(天津)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611168603.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于多层潜在特征的用户兴趣分群方法及系统
- 下一篇:一种图像检索方法及终端
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置