[发明专利]一种基于Spark的小文件合并方法及系统在审

专利信息
申请号: 201911216907.0 申请日: 2019-12-03
公开(公告)号: CN111008235A 公开(公告)日: 2020-04-14
发明(设计)人: 查文宇;张艳清;王纯斌;赵神州;费滔 申请(专利权)人: 成都四方伟业软件股份有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/18
代理公司: 暂无信息 代理人: 暂无信息
地址: 610041 四川省*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 spark 文件 合并 方法 系统
【说明书】:

发明公开了一种基于Spark的小文件合并方法及系统,本方案通过定时合并小文件任务,根据任务规则将多个分区中的多个文件合并成1个文件,降低小文件散落数量,当查询Hive库中数据时能降低磁盘读取负荷,网络传输消耗,数据合并等过程提升数据查询效率。解决了现有方案对源数据库中的数据抽取到Hive库中,Spark同时多个任务同时读取源数据库数据,并将数据写入到不同分区中导致的磁盘读取倍增、数据查询性能就会下降的问题。

技术领域

本发明涉及商业智能分析平台领域,特别涉及一种基于Spark的小文件合并方法及系统。

背景技术

商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。

可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。

因此,把商业智能看成是一种解决方案应该比较恰当。商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具(大数据魔镜)、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。

现有方案对源数据库中的数据抽取到Hive库中,Spark同时进行多个任务同时读取源数据库数据,并将数据写入到不同分区中,当数据落地到hadoop文件系统中就会产生每个分区多个文件,且当用户再次进行数据增量抽取时文件会呈指数增长,文件个数增长后系统查询文件系统的数据时,磁盘读取倍增、数据查询性能就会下降。

发明内容

本发明的目的在于:提供了一种基于Spark的小文件合并方法及系统,解决了现有方案对源数据库中的数据抽取到Hive库中,Spark同时多个任务同时读取源数据库数据,并将数据写入到不同分区中导致的磁盘读取倍增、数据查询性能就会下降的问题。

本发明采用的技术方案如下:

一种基于Spark的小文件合并方法,基于源数据库、带有Spark引擎的商业智能分析平台和装载有hadoop文件系统的Hive数据库,还包括以下步骤:

S1、用户通过商业智能分析平台操作源数据库并配置数据抽取功能;

S2、商业智能分析平台根据用户配置的N个抽取分区读取源数据库中的数据,将抽取的数据写入到Hive数据库中M个分区中,每个分区文件数为N个,M、N均为正整数;

S3、hadoop文件系统根据用户预录入的时间周期和任务规则对M个分区中的文件进行合并。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911216907.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top