[发明专利]Hive数据仓库的数据处理方法及装置在审

申请号：	202110762070.0	申请日：	2021-07-06
公开（公告）号：	CN113434608A	公开（公告）日：	2021-09-24
发明（设计）人：	朱阿龙;田林;张亚泽;何聪聪;豆敏娟;刘琦;张靖羚;石慧彪;刘宇琦	申请（专利权）人：	中国银行股份有限公司
主分类号：	G06F16/28	分类号：	G06F16/28;G06F16/25;G06F16/22;G06F16/182
代理公司：	北京三友知识产权代理有限公司 11127	代理人：	王天尧;谷敬丽
地址：	100818 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	hive 数据仓库数据处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种Hive数据仓库的数据处理方法及装置，应用于大数据领域，该方法包括：根据Hive正式表的信息，建立与Hive正式表表结构相同且名称不同的临时中间表；将待存储数据导入临时中间表中，从临时中间表中将数据读取到Hadoop分布式文件系统中；将Hadoop分布式文件系统中每个弹性分布式数据集RDD的最小单元中的文件，依次写入Hive正式表中。通过将数据从构建的中间表导入Hadoop分布式文件系统中，以弹性分布式数据集RDD的最小单元为单位将文件拆分成能够导入Hive正式表的小文件，不仅简单，且相较于逐行读取数据内容的现有技术，能够更加快速地存储数据，也不容易发生数据丢失和数据重复。

技术领域

本发明涉及大数据技术领域，尤其涉及一种Hive数据仓库的数据处理方法及装置。

背景技术

大数据环境下，对于应用程序的性能测试往往都需要百万级别、千万级别甚至上亿级别的数据量进行测试。且大数据环境下的应用程序的开发，都需要考虑应用的并行度，执行效率等基本性能问题。然而有时候因为上游系统，或者历史存量数据中存在大数据文件，几G甚至几十G的文件；在大数据框架下，这些大文件将会导致程序运行的并行度降低，程序执行效率低下，大数据框架的特性无法真正体现；除此之外单个文件过大也会导致资源消耗过高，在资源不是特别充足的条件下，还会导致程序执行失败。

因而，Spark和Hadoop大数据生态中的应用性能会要求，存储于Hive表和Hadoop中的数据文件大小最好是128M，故大文件无法直接被存储，而需要使用程序对文件内容逐行按顺序读取为一个个小的可被存储的文件，但这样的操作复杂，非常浪费开发测试过程的时间；且逐行读取文件内容，很容易出现数据丢失和数据重复的问题。

发明内容

本发明实施例提供一种Hive数据仓库的数据处理方法，用以简单快速地存储大文件，减少存储时数据丢失和数据重复的发生，该方法包括：

确定待存储数据存入Hive数据仓库时的Hive正式表的信息；

根据所述Hive正式表的信息，建立与所述Hive正式表表结构相同且名称不同的临时中间表；

将待存储数据导入临时中间表中，从临时中间表中将数据读取到Hadoop分布式文件系统中；

将Hadoop分布式文件系统中每个弹性分布式数据集RDD的最小单元中的文件，依次写入Hive正式表中。

本发明实施例还提供一种Hive数据仓库的数据处理装置，用以简单快速地存储大文件，减少存储时数据丢失和数据重复的发生，该装置包括：

正式表信息确定模块，用于确定待存储数据存入Hive数据仓库时的Hive正式表的信息；

中间表构建模块，用于根据所述Hive正式表的信息，建立与所述Hive正式表表结构相同且名称不同的临时中间表；

数据暂存模块，用于将待存储数据导入临时中间表中，从临时中间表中将数据读取到Hadoop分布式文件系统中；

文件拆分模块，用于将Hadoop分布式文件系统中每个弹性分布式数据集RDD的最小单元中的文件，依次写入Hive正式表中。

本发明实施例还提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述Hive数据仓库的数据处理方法。