[发明专利]一种数据入库方法、系统及电子设备和存储介质在审
申请号: | 201910452637.7 | 申请日: | 2019-05-28 |
公开(公告)号: | CN110162563A | 公开(公告)日: | 2019-08-23 |
发明(设计)人: | 刘忠真;陈应杨;蔡志豪;许国栋 | 申请(专利权)人: | 深圳市网心科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22;G06F16/215 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 518052 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分区策略 存储格式 电子设备 格式数据 数据入库 创建 计算机可读存储介质 入库 存储介质 存储空间 数据保存 数据分析 目标库 申请 改写 采集 消耗 转换 | ||
本申请公开了一种数据入库方法、系统及一种电子设备和计算机可读存储介质,该方法包括:将采集到的数据保存至预先按照分区策略创建的临时数据表中;临时数据表的存储格式为sequence格式;生成入库任务,并根据入库任务将临时数据表中的数据导入至目标库中预先按照分区策略创建的目标数据表中;目标数据表的存储格式为parquet格式。本申请预先按照分区策略创建了sequence格式的临时数据表,创建了parquet格式的目标数据表,将临时数据表中的数据导入目标数据表,实现将sequence格式数据转换为节省存储空间、提升数据分析效率的parquet格式数据,无需花费改写成本,同时避免了对资源的消耗。
技术领域
本申请涉及计算机技术领域,更具体地说,涉及一种数据入库方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
随着互联网的发展,尤其是近年来大数据技术越来越流行,企业都在往数字化方向转型,每个企业或大或小的建立了自己的数据平台,Hadoop(分布式系统基础架构)成为各个公司进行大数据分析的标准架构,但是Hadoop分析效率低下,运行速度慢,不能满足即时查询的分析需求。基于此,impala on Hadoop(基于分布式系统基础架构的新型查询系统)应运而生,该系统中文件存储采用parquet格式。
在相关技术中,利用开源的flume(日志收集系统)进行数据的前期采集,但是flume不支持写入parquet格式,若将flume写入的数据转换为impala支持的parquet格式的数据,一种常见的方案是通过改写flume agent来增加支持parquet格式的功能,这种方案改写成本高,还需自己编写拦截器,如果存在大量的历史数据,会导致大量文件句柄打开,可能造成服务器宕机;另一种常见的方案是基于spark(计算引擎)直接读取kafka(分布式消息系统),而这种方案对资源消耗较大,1G的数据通常需要消耗5G的内存。
发明内容
本申请的目的在于提供一种数据入库方法、系统及一种电子设备和一种计算机可读存储介质,实现将flume采集到的sequence格式数据转换为能够节省存储空间、提升后续数据分析效率的parquet格式数据,无需花费改写成本,同时避免了对资源的消耗。
为实现上述目的,本申请提供了一种数据入库方法,包括:
将采集到的数据保存至预先按照分区策略创建的临时数据表中;所述临时数据表的存储格式为sequence格式;
生成入库任务,并根据所述入库任务将所述临时数据表中的数据导入至目标库中预先按照所述分区策略创建的目标数据表中;所述目标数据表的存储格式为parquet格式。
可选的,所述将采集到的数据保存至预先按照分区策略创建的临时数据表中,包括:
根据预设写入配置将采集到的数据保存至预先按照分区策略创建的临时数据表中;其中,所述预设写入配置包括文件分割周期和目录分割周期中的至少一项。
可选的,所述生成入库任务之前,还包括:
根据预先配置的任务开始时间以及当前时间判断是否生成入库任务。
可选的,所述根据预先配置的任务开始时间以及当前时间判断是否生成入库任务,包括:
获取所述任务开始时间和调度时间的间隔分钟数;所述调度时间为所述当前时间向后偏移预定时间得到的时间;
确定所述间隔分钟数对预先配置的任务周期进行求余计算得到的计算结果;
若计算结果为零,则允许生成所述入库任务。
可选的,所述根据所述入库任务将所述临时数据表中的数据导入至目标库中预先按照所述分区策略创建的目标数据表中的过程中,还包括:
基于预设数据清洗条件对数据进行过滤,以过滤异常数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市网心科技有限公司,未经深圳市网心科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910452637.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能圈定系统、方法及智能变电站
- 下一篇:业务数据处理方法及系统