[发明专利]一种基于自适应表维度划分的大数据处理方法有效

申请号：	201610046015.0	申请日：	2016-01-22
公开（公告）号：	CN105488231B	公开（公告）日：	2018-07-20
发明（设计）人：	袁友伟;陈魏欣;黄彬彬;俞东进;鄢腊梅;李黎	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京中政联科专利代理事务所(普通合伙) 11489	代理人：	吴建锋
地址：	310018***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于自适应维度划分数据处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于自适应表维度划分的大数据处理方法，包括以下步骤，S1：根据用户需求配置并接入数据源生成多张所需的数据表并导入数据仓库；S2：对所生成的数据表进行数据清洗操作；S3：对数据表进行数据预处理操作并将预处理后的结果信息预先存储在列式数据库中；S4：根据预先存储在数据库的结果信息进行数据查询操作。采用本发明的技术方案，能够根据所导入数据表的维度数自动划分为多个子维度，从而能够有效降低维度数，能够达到维度的快速分析且存储空间占用少；同时设置维度支持度集合，能够根据用户的查询操作统计维度间的支持度，自动将关联密切的维度放在一个子维度中，从而大大降低了数据处理量。

技术领域

本发明涉及大数据查询分析技术领域，尤其涉及一种基于自适应表维度划分的大数据处理方法。

背景技术

随着信息化社会的到来，全球数据的规模以一种爆炸式的形式快速增长，所谓的“大数据时代”已经到来，伴随着产生的海量数据，一方面是传统数据处理方式已经无法满足如此大规模数据量的情况下进行快速分析处理；另一方面是在这海量数据中存在的宝贵数据价值亟待挖掘。而在这一背景下，如何实现大数据的快速分析查询是本领域亟待解决的一个技术问题，主要包括以下两方面：1、大数据平台中数据的存储管理方式多种多样，如何设计一个能够适应大多数业务需求，并且以尽可能少的存储空间进行存储，同时设计能够支持快速分析的数据结构也是一个难点；2、针对许多大数据分析工具高延时的特点，如何能够对其进行一定程度的处理使其能够以较少的代价获得实时分析查询的能力也依然值得研究。

在实际应用中，比如在超大规模、超高维度的数据仓库上执行复杂的数据查询时，查询响应时间会影响到用户的体验，必须满足交互环境的需要。为了缩短查询响应时间，现有技术通常引入视图实例化Cube，但一个d维的data Cube可以生成2^d个聚集Cuboids和个聚集数据单元，因此，Cube中的元组个数往往是基表(base table)的几百倍或几千倍，要占用GB甚至是PB级的存储空间需要花费很长的计算和维护时间。

故，针对目前现有技术中存在的上述缺陷，实有必要进行研究，以提供一种方案，解决现有技术中存在的缺陷。

发明内容

有鉴于此，确有必要提供一种基于自适应表维度划分的大数据处理方法，能够根据大数据存储表的维度数进行自动划分，从而有效降低维度数，解决高维数据分析速度慢的缺点。

为了克服现有技术存在的缺陷，本发明提供以下技术方案：

一种基于自适应表维度划分的大数据处理方法，包括以下步骤：

步骤S1：根据用户需求配置并接入数据源生成多张所需的数据表并导入数据仓库，每张数据表具有唯一的tableName；

步骤S2：对所生成的数据表进行数据清洗操作；

步骤S3：对数据表进行数据预处理操作并将预处理后的结果信息预先存储在列式数据库中，该步骤进一步包括以下步骤：

步骤S31：对数据表中每一条记录标记唯一的编号TID，并按列划分为多个维度，记维度D＝{D₁,D₂,D₃…D_m…D_DN|m≤DN}，需计算的指标M＝{M₁,M₂,M₃…M_MN}，其中数据量为TQ、维度数DN、增量记录数IN、指标数MN；