[发明专利]一种数据处理方法、装置及计算机存储介质在审
申请号: | 201910760230.0 | 申请日: | 2019-08-16 |
公开(公告)号: | CN112395327A | 公开(公告)日: | 2021-02-23 |
发明(设计)人: | 张娜 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28;G06F16/22;G06F16/182 |
代理公司: | 北京派特恩知识产权代理有限公司 11270 | 代理人: | 姚文娴;张颖玲 |
地址: | 215163 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 计算机 存储 介质 | ||
本发明实施例公开一种数据处理方法、装置及计算机存储介质,方法包括:获取数据源实时生产的数据,基于第一时间粒度将数据划分为批次。对划分形成的批次进行汇总形成第一时间粒度的汇总结果,并存储批次的第一时间粒度的汇总结果。本发明实施例提供了差异化的时间粒度的汇总结果,能够满足各种数据挖掘对数据汇总结果的多样性要求。
技术领域
本发明涉及数据挖掘领域,尤其涉及一种数据处理方法、装置及计算机存储介质。
背景技术
大数据技术和数据挖掘技术在各领域的广泛应用,随着数据量的不断增大,为了提高数据挖掘的效率,得到更准确的数据挖掘结果,在数据挖掘前往往要对数据进行汇总,形成可读性和可操作性均较强的数据资产,以供不同的上层应用调用并进行不同类型的数据挖掘。
现有的数据汇总方法往往通过对离线数据进行汇总得到粗时间粒度的汇总结果,这种数据汇总方法仅能提供一种时间粒度的汇总结果,无法满足各种数据挖掘对数据汇总结果的多样性要求。
发明内容
本发明实施例提供一种能够满足各种数据挖掘对数据汇总结果的多样性要求的数据处理方法、装置及计算机存储介质。
本发明实施例的技术方案是这样实现的:
本发明实施例供一种数据处理方法,所述方法包括:
获取数据源实时生产的数据,基于第一时间粒度将所述数据划分为批次;
对划分形成的批次进行汇总形成第一时间粒度的汇总结果,并存储所述批次的第一时间粒度的汇总结果;
基于第二时间粒度获取存储的第一时间粒度的汇总结果,所述第二时间粒度大于所述第一时间粒度;
对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,并存储所述第二时间粒度的汇总结果。
上述技术方案中,所述基于第一时间粒度将所述数据划分为批次,包括:
确定所述实时生产的数据中满足质量稽核条件的数据;
基于第一时间粒度将所述满足质量稽核条件的数据划分为批次。
上述技术方案中,所述对划分形成的批次进行汇总形成第一时间粒度的汇总结果,包括:
通过第一集群对划分形成的所述批次进行汇总,对应得到每个所述批次的第一时间粒度的汇总结果;
所述对所述第二时间粒度内的汇总结果进行汇总形成第二时间粒度的汇总结果,包括:
通过所述第一集群将所述第二时间粒度内所包括的第一时间粒度的汇总结果划分为块;
通过所述第一集群对各所述块进行汇总,分别得到各所述块的汇总结果;
通过所述第一集群将各所述块的汇总结果组合,得到所述第二时间粒度的汇总结果。
上述技术方案中,所述存储所述批次的第一时间粒度的汇总结果,包括:
将所述第一时间粒度的汇总结果存入第一集群的分布式文件系统中;
所述存储所述第二时间粒度的汇总结果,包括:
将所述第二时间粒度的汇总结果存入所述第一集群的所述分布式文件系统中。
上述技术方案中,所述方案还包括:
将分布式文件系统中的所述第一时间粒度的汇总结果和所述第二时间粒度的汇总结果导入第一集群的数据仓库中;
所述数据仓库中所述第二时间粒度的汇总结果的格式转换,以根据所转换的格式存储到以下至少一个:关系数据库、非关系数据库、内存数据库和分布式文件系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910760230.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:阵列基板、显示面板及其驱动方法
- 下一篇:餐厨废弃物处理工艺