[发明专利]一种基于自适应表维度划分的大数据处理方法有效
申请号: | 201610046015.0 | 申请日: | 2016-01-22 |
公开(公告)号: | CN105488231B | 公开(公告)日: | 2018-07-20 |
发明(设计)人: | 袁友伟;陈魏欣;黄彬彬;俞东进;鄢腊梅;李黎 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京中政联科专利代理事务所(普通合伙) 11489 | 代理人: | 吴建锋 |
地址: | 310018*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于自适应表维度划分的大数据处理方法,包括以下步骤,S1:根据用户需求配置并接入数据源生成多张所需的数据表并导入数据仓库;S2:对所生成的数据表进行数据清洗操作;S3:对数据表进行数据预处理操作并将预处理后的结果信息预先存储在列式数据库中;S4:根据预先存储在数据库的结果信息进行数据查询操作。采用本发明的技术方案,能够根据所导入数据表的维度数自动划分为多个子维度,从而能够有效降低维度数,能够达到维度的快速分析且存储空间占用少;同时设置维度支持度集合,能够根据用户的查询操作统计维度间的支持度,自动将关联密切的维度放在一个子维度中,从而大大降低了数据处理量。 | ||
搜索关键词: | 一种 基于 自适应 维度 划分 数据处理 方法 | ||
【主权项】:
1.一种基于自适应表维度划分的大数据处理方法,其特征在于,包括以下步骤:步骤S1:根据用户需求配置并接入数据源生成多张所需的数据表并导入数据仓库,每张数据表具有唯一的tableName;步骤S2:对所生成的数据表进行数据清洗操作;步骤S3:对数据表进行数据预处理操作并将预处理后的结果信息预先存储在列式数据库中,该步骤进一步包括以下步骤:步骤S31:对数据表中每一条记录标记唯一的编号TID,并按列划分为多个维度,记维度D={D1,D2,D3…Dm…DDN|m≤DN},需计算的指标M={M1,M2,M3…MMN},其中数据量为TQ、维度数DN、增量记录数IN、指标数MN;步骤S32:将维度D划分成r个子维度,记作R={R1,R2,R3…Rr},其中Ri代表第i个子维度包含的维度数,其中,r满足如下约束条件:若没有这样的r,则查找最接近DN的合数DNC,使得并且取ΔX=DNC‑DN,产生的新的r个子维度,记作R′={R1′,R2′,R3′…Rr′}且满足若最终有多个满足条件的r,则取其中最小值;步骤S33:设置维度支持度集合SUP,SUP={aij|i,j∈[1,DN],i>j,aij=1},其中,二维数组aij表示维度Di与Dj的支持度;所述维度支持度集合根据用户查询操作进行数据更新;步骤S34:根据所述维度支持度集合对已划分好的r个子维度进行相应调整,将支持度关联最密切的维度放在同一个子维度中;步骤S35:对于每个子维度内的维度Ri,对所有指标M,采用完全聚合的方式生成所有结果集RSi并存储在子维度划分表中,其中,每一个结果都是一个二元组AG=(AR,M),AR代表Ri的一种排列,M为指标集合,然后将AG中每个元素作为一列,按列存储在数据库中;步骤S36:根据原数据表中的记录编号TID,生成维度映射表,该维度映射表是以唯一子维度编号DID关联子维度和TID的关系,同时以AR中所有子维度名称+DID作为行键;步骤S4:根据预先存储在数据库的结果信息进行数据查询操作,该步骤进一步包括:步骤S41:接收用户输入的查询参数,所述查询参数包括维度dim、指标mes、展示方式viewType以及查找的表tableName;步骤S42:根据维度dim和指标mes生成查询的组合,记作SC={dim,mes};步骤S43:根据生成查询的组合查找维度划分表,寻找dim维度所涉及到的子维度DS,记DS={ds|ds∈dim∩R},获取包含dim中维度最多的子维度ds,在该子维度ds的维度划分表中直接获取结果信息;步骤S44:对于不包括在子维度ds的其他维度,通过维度映射表查找原数据表:首先得到子维度ds的维度编号DID,根据DID查找原数据表中关联的TID,对所有满足条件的TID,按照dim指定的维度记录进行聚合,得到计算后的结果;步骤S45:对查找的维度中每个维度d(d∈dim),增加其与其他维度的支持度,并写入维度支持度二维数组中;步骤S46:将所有结果信息value转换成图表数据格式,并进行图表格式封装,然后返回前台展示。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610046015.0/,转载请声明来源钻瓜专利网。
- 上一篇:空间电容式分压器
- 下一篇:一种支持远程异地多点的同步选房装置及方法