[发明专利]数据处理方法、装置、电子设备及存储介质在审
申请号: | 201911340646.3 | 申请日: | 2019-12-23 |
公开(公告)号: | CN111159135A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 李文学;田浩;史忠伟 | 申请(专利权)人: | 五八有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/18;G06F16/25;G06F16/28;G06F16/22 |
代理公司: | 北京弘权知识产权代理事务所(普通合伙) 11363 | 代理人: | 逯长明;许伟群 |
地址: | 300450 天津市滨海新区经济技术开*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 存储 介质 | ||
本申请公开了数据处理方法、装置、电子设备及存储介质,该方法从分布式文件系统中获取日志数据集;对日志数据集进行离线ETL处理,得到离线结果数据集;将离线结果数据集导入到Druid中,所述Druid包括预先导入的至少一个实时结果数据,该实时结果数据为所述日志数据经实时ETL处理得到;在Druid中,将离线结果数据与实时结果数据融合。该数据处理方法使用Druid将离线数据与实时数据进行融合,不但融入了Druid的诸多优点,还可以支持不断变化的数据分析需求,例如,在对离线数据进行数据分析时,可以直观看到实时数据的数据结果,在各类算法模型训练时,还可以支持对离线数据和实时数据的共同需求。
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
在信息及数据智能时代,数据仓库用于为因特网和企业内部网以及数据库提供计算资源,它可以保存极大量的数据供分析使用,且支持多种数据访问技术。
传统的数据仓库提供两条相互独立的数据处理链路,其一为离线处理链路,用于处理离线数据,其二为实时处理链路,用于处理实时数据,进而使得实时数据结果和离线数据结果分别产生于两条独立的数据处理链路。
而由于该两条数据处理链路的开发方式、处理方法和逻辑和数据来源等都不相同,因此该数据仓库架构难以支撑持续变化的数据分析需求。
例如,在一种典型的数据分析场景中,从数据仓库分别查询得到实时报表数据和离线报表数据,并使用离线报表数据核对实时报表数据的正确性,即“对数”。由于该离线报表数据和实时报表数据分别产生于不同的数据处理链路,因此使得“对数”过程的执行极其困难。
发明内容
本申请提供一种数据处理方法、装置、电子设备及存储介质,以支撑持续变化的数据分析需求。
第一方面,本申请提供一种数据处理方法,所述方法包括:
从分布式文件系统中获取日志数据集,所述日志数据集包括至少一个日志数据;
对所述日志数据集进行离线ETL处理,得到离线结果数据集,所述离线结果数据集包括至少一个离线结果数据,每个所述离线结果数据对应一个所述日志数据;
将所述离线结果数据集导入到Druid中,所述Druid包括预先导入的至少一个实时结果数据,所述实时结果数据为所述日志数据经实时ETL处理得到;
在所述Druid中,将所述离线结果数据与所述实时结果数据融合。
进一步,所述将离线结果数集据导入到Druid中,包括:
按照预设时间序列对所述离线结果数据集进行分片,得到一个或多个离线数据段,所述预设时间序列包括至少一个或多个时间段,每个所述离线数据段对应一个时间段;
为每个所述离线数据段创建索引;
将具有所述索引的离线数据段存储到所述Druid中。
进一步,所述按照预设时间序列对所述离线结果数据集进行分片,得到一个或多个离线数据段,包括:
获取每个所述离线结果数据对应的日志数据的时间戳;
根据所述时间戳确定每个所述离线结果数据对应的时间段;
将对应同一时间段的离线结果数据组成一个离线数据段,组成的所述离线数据段与所述时间段对应。
进一步,所述对日志数据集进行离线ETL处理,得到离线结果数据集,包括:
将所述至少一个日志数据按照所述日志数据的时间戳顺序传入到离线ETL处理框架中,所述离线ETL处理框架为基于Hive-Sql的数据处理框架;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于五八有限公司,未经五八有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911340646.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于宽度学习的物体识别方法及系统
- 下一篇:网页测试方法及装置