[发明专利]一种数据处理方法、装置及电子设备有效
申请号: | 202010288545.2 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111488323B | 公开(公告)日: | 2023-06-13 |
发明(设计)人: | 赵焕芳;刘宇帅;杜锐;苏新锋;薛飞;牛向远 | 申请(专利权)人: | 中国农业银行股份有限公司 |
主分类号: | G06F16/182 | 分类号: | G06F16/182;G06F16/17 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 尹秀 |
地址: | 100005 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 电子设备 | ||
本发明提供了一种数据处理方法、装置及电子设备,获取待进行数据合并处理的数据表的工作模式,依据所述工作模式确定待进行数据合并处理的目标文件,对所述目标文件进行数据合并处理。通过本发明可以对文件进行合并操作,可以减少小文件的数量,进而提高SparkSQL的检索效率和并发处理任务的能力,提升系统的整体查询效率及可用性。
技术领域
本发明涉及数据处理领域,更具体的说,涉及一种数据处理方法、装置及电子设备。
背景技术
随着信息技术IT应用系统的数据量的迅速增长,在海量数据检索应用中,分布式检索框架SparkSQL作为一种当前主流的大数据检索方法被广泛的使用,Hive是基于Hadoop之上的数据仓库处理工具,通过使用类结构化查询语言SQL的语言实现Hadoop中数据的查询,所有Hive的数据都存储在Hadoop的分布式文件系统HDFS(Hadoop DistributedFileSystem)中。SparkSQL提供了与Hive交互的数据查询接口,能够实现高效数据查询。
随着数据量的持续增长以及对文件加载延迟的要求不断提高,HDFS中过多的小文件会降低SparkSQL的检索效率和并发处理任务的能力,当小文件数量过多时,将会直接影响系统的整体查询效率及可用性。
发明内容
有鉴于此,本发明提供一种数据处理方法、装置及电子设备,以解决HDFS中过多的小文件会降低SparkSQL的检索效率和并发处理任务的能力,当小文件数量过多时,将会直接影响系统的整体查询效率及可用性的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据处理方法,包括:
获取待进行数据合并处理的数据表的工作模式;
依据所述工作模式确定待进行数据合并处理的目标文件;
对所述目标文件进行数据合并处理。
优选地,若所述工作模式包括全量模式,依据所述工作模式确定待进行数据合并处理的目标文件,包括:
确定所述数据表是否存在分区;
若不存在分区,将所述数据表对应的所有文件作为所述目标文件;
若存在分区,分别将所述数据表中每一分区对应的所有文件作为所述目标文件。
优选地,若所述工作模式包括增量模式,所述依据所述工作模式确定待进行数据合并处理的目标文件,包括:
将所述数据表中新增数据所在的分区对应的文件作为所述目标文件。
优选地,若所述工作模式包括镜像表模式,所述依据所述工作模式确定待进行数据合并处理的目标文件,包括:
依据预设镜像表,确定所述数据表中的新增数据对应的多个目标分区;所述目标分区为所述数据表中与所述预设镜像表的数据分区对应的已有分区;
将所述新增数据中对应每一所述目标分区的数据对应的文件,以及所述目标分区对应的原有文件作为所述目标文件。
优选地,所述对所述目标文件进行数据合并处理,包括:
获取预设合并文件数量;
依据所述预设合并文件数量,确定每一合并后的单文件的大小;
依据每一合并后的单文件的大小,对所述目标文件进行数据合并处理;
或,获取预设合并后的单文件的文件大小;
依据所述预设合并后的单文件的文件大小,确定合并后的文件的数量;
依据所述合并后的文件的数量,对所述目标文件进行数据合并处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业银行股份有限公司,未经中国农业银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010288545.2/2.html,转载请声明来源钻瓜专利网。