[发明专利]一种使用HIVE备份表进行大数据处理的方法及系统在审
申请号: | 201711449147.9 | 申请日: | 2017-12-27 |
公开(公告)号: | CN110019477A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 陈益梦;范钢;潘竞旭;田宜喜;谢宇;张玉魁;陈荣兴 | 申请(专利权)人: | 航天信息股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/28 |
代理公司: | 北京工信联合知识产权代理有限公司 11266 | 代理人: | 郭一斐;叶万东 |
地址: | 100195 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分区 增量数据 备份表 分区备份 字段 数据抽取模块 数据提取模块 抽取 文件夹 字段提取 数据处理 增量数据抽取 原始数据库 处理数据 数据存储 数据通过 字段信息 存储 更新 | ||
本发明公开了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法包括抽取增量数据并都HIVE中;对增量数据进行ETL处理;将经过ETL处理得到的处理数据与增量数据通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行分区备份,并且利用分区字段信息来更新备份表;再下一个抽取周期进行下一轮的增量数据抽取;用户根据分区字段提取所需的数据;所述系统包括数据抽取模块、ETL处理模块、分区备份模块以及数据提取模块,所述数据抽取模块用于从原始数据库中抽取增量数据;所述ETL处理模块用于对增量数据进行ETL处理;所述分区备份模块用于对数据通过分区字段进行分区并存储到备份表中;所述数据提取模块用于根据分区字段提取相应的数据。
技术领域
本发明涉及数据处理领域,更具体地,涉及一种使用HIVE备份表进行大数据处理的方法及系统。
背景技术
随着计算机技术的快速发展,我们已经迈入了信息社会,各种各样的社会行为都被信息化,我们身边充斥着无处不在的各种信息,各类信息更是以爆炸的形式增长着,这便是大数据时代的到来;庞大数据信息中蕴含这巨大的战略意义,而获得这些意义的前提是要对如此庞大的数据进行有效的分析及处理;
HIVE是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,HIVE具有诸多优点,十分适合大数据集的批处理作业,如今对HIVE的研究主要在于使用HIVE对数据进行分区存储的技术,但对HIVE存储后的使用存在还需要改善的空间;
在进行基于大数据的基础运算分析时,每次都根据需求在不同的库或日志提取大量数据,尤其是当需求是不断重复导入和计算增量数据的过程时,需要重复的进行复杂的数据提取,这无疑影响了数据计算的效率。
发明内容
为了解决背景技术存在的针对增量数据的大数据运算效率低的问题,本发明提供了一种使用HIVE备份表进行大数据处理的方法及系统,所述方法及系统每次只抽取增量数据,并将历史数据存储在HIVE表中,在信息重复导入及增量数据计算时,从HIVE表中直接提取数据,节省开发过程不断重复计算的时间;所述一种使用HIVE备份表进行大数据处理的方法包括:
步骤1,从基于原始数据库中存储的日志文件中抽取增量数据,并且将所述增量数据导入至HIVE中;
步骤2,对所述增量数据进行ETL处理;
步骤3,将经过ETL处理得到的处理数据与增量数据进行分区备份,所述分区备份是通过分区字段将数据存储到文件夹名称包括分区字段的文件夹中进行备份,并且利用分区字段信息来更新备份表;
步骤4,从原始数据库中抽取下一轮的增量数据至HIVE中,所述抽取的下一轮的增量数据覆盖HIVE中原有的增量数据,并重复步骤2及步骤3;
进一步的,所述ETL处理包括将增量数据中的无用数据去掉并填补缺失数据,所述无用数据包括不规则数据以及垃圾数据;
进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期是固定或不固定的;
进一步的,所述增量数据按照时间周期进行抽取,所述抽取增量数据的周期依据用户需求确定;
进一步的,所述备份表包括多次抽取分区备份的多个分区字段;所述分区字段包括日期;
进一步的,根据业务需求在备份表中使用Spark通过分区字段查找并提取相应文件夹中的数据;
所述一种使用HIVE备份表进行大数据处理的系统包括:
数据抽取模块,所述数据抽取模块用于从原始数据库中抽取增量数据,并将增量数据发送至ETL处理模块以及分区备份模块;
ETL处理模块,所述ETL处理模块用于对增量数据进行ETL处理,并将处理得到的处理数据发送至分区备份模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于航天信息股份有限公司,未经航天信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711449147.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于模式识别的安检系统
- 下一篇:数据导入方法、介质、设备及装置