[发明专利]一种数据处理方法、装置及电子设备有效

申请号：	202010288545.2	申请日：	2020-04-14
公开（公告）号：	CN111488323B	公开（公告）日：	2023-06-13
发明（设计）人：	赵焕芳;刘宇帅;杜锐;苏新锋;薛飞;牛向远	申请（专利权）人：	中国农业银行股份有限公司
主分类号：	G06F16/182	分类号：	G06F16/182;G06F16/17
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	尹秀
地址：	100005 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种数据处理方法装置电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种数据处理方法、装置及电子设备，获取待进行数据合并处理的数据表的工作模式，依据所述工作模式确定待进行数据合并处理的目标文件，对所述目标文件进行数据合并处理。通过本发明可以对文件进行合并操作，可以减少小文件的数量，进而提高SparkSQL的检索效率和并发处理任务的能力，提升系统的整体查询效率及可用性。

技术领域

本发明涉及数据处理领域，更具体的说，涉及一种数据处理方法、装置及电子设备。

背景技术

随着信息技术IT应用系统的数据量的迅速增长，在海量数据检索应用中，分布式检索框架SparkSQL作为一种当前主流的大数据检索方法被广泛的使用，Hive是基于Hadoop之上的数据仓库处理工具，通过使用类结构化查询语言SQL的语言实现Hadoop中数据的查询，所有Hive的数据都存储在Hadoop的分布式文件系统HDFS(Hadoop DistributedFileSystem)中。SparkSQL提供了与Hive交互的数据查询接口，能够实现高效数据查询。

随着数据量的持续增长以及对文件加载延迟的要求不断提高，HDFS中过多的小文件会降低SparkSQL的检索效率和并发处理任务的能力，当小文件数量过多时，将会直接影响系统的整体查询效率及可用性。

发明内容

有鉴于此，本发明提供一种数据处理方法、装置及电子设备，以解决HDFS中过多的小文件会降低SparkSQL的检索效率和并发处理任务的能力，当小文件数量过多时，将会直接影响系统的整体查询效率及可用性的问题。

为解决上述技术问题，本发明采用了如下技术方案：

一种数据处理方法，包括：

获取待进行数据合并处理的数据表的工作模式；

依据所述工作模式确定待进行数据合并处理的目标文件；

对所述目标文件进行数据合并处理。

优选地，若所述工作模式包括全量模式，依据所述工作模式确定待进行数据合并处理的目标文件，包括：

确定所述数据表是否存在分区；

若不存在分区，将所述数据表对应的所有文件作为所述目标文件；

若存在分区，分别将所述数据表中每一分区对应的所有文件作为所述目标文件。