[发明专利]一种基于Spark的小文件合并方法及系统在审
申请号: | 201911216907.0 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111008235A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 查文宇;张艳清;王纯斌;赵神州;费滔 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 spark 文件 合并 方法 系统 | ||
1.一种基于Spark的小文件合并方法,基于源数据库、带有Spark引擎的商业智能分析平台和装载有hadoop文件系统的Hive数据库,其特征在于:还包括以下步骤:
S1、用户通过商业智能分析平台操作源数据库并配置数据抽取功能;
S2、商业智能分析平台根据用户配置的N个抽取分区读取源数据库中的数据,将抽取的数据写入到Hive数据库中M个分区中,每个分区文件数为N个,M、N均为正整数;
S3、hadoop文件系统根据用户预录入的时间周期和任务规则对M个分区中的文件进行合并。
2.根据权利要求1所述的一种基于Spark的小文件合并方法,其特征在于:所述商业智能分析平台包括与源数据库匹配的数据集,在步骤S1中,用户通过商业智能分析平台中的数据集的数据集处理节点操作源数据库并配置数据抽取功能。
3.根据权利要求1所述的一种基于Spark的小文件合并方法,其特征在于:所述步骤S2中商业智能分析平台根据用户配置的N个抽取分区读取源数据库中的数据的方法为:Spark引擎同时执行N个任务读取源数据库数据,并将数据写入到M个分区中。
4.根据权利要求1所述的一种基于Spark的小文件合并方法,其特征在于:所述步骤S3中hadoop文件系统根据用户预录入的时间周期和任务规则对M个分区中的文件进行合并的方法包括以下步骤:
S301、用户对hadoop文件系统进行配置,设置hadoop文件系统进行文件合并的周期,配置文件合并的任务规则;
S302、hadoop文件系统启动后开始计时,计时达到步骤S301中周期预设的时间后,hadoop文件系统根据步骤S301配置的任务规则对M个分区中的文件进行合并;
S303、hadoop文件系统完成文件合并后重置计时器然后转入步骤S302。
5.根据权利要求4所述的一种基于Spark的小文件合并方法,其特征在于:所述步骤S302中的任务规则包括:按文件名称进行排序后合并、按文件创建时间进行排序后合并、按文件修改时间进行排序后合并及按文件大小进行排序后合并。
6.根据权利要求4所述的一种基于Spark的小文件合并方法,其特征在于:所述步骤S303合并后的文件包括:文件头和文件内容,所述文件头包括合并前所有文件的名称,所述文件内容包括合并前所有文件的数据。
7.一种基于Spark的小文件合并系统,其特征在于:包括源数据库、带有Spark引擎的商业智能分析平台和基于hadoop文件系统的Hive数据库;
所述Hive数据库包括:
存储器,用于存储可执行指令及文件;
处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种基于Spark的小文件合并方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911216907.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强抗渗抗冻混凝土及其制备方法
- 下一篇:皮料直接腌制工艺