[发明专利]一种基于Spark的小文件合并方法及系统在审
申请号: | 201911216907.0 | 申请日: | 2019-12-03 |
公开(公告)号: | CN111008235A | 公开(公告)日: | 2020-04-14 |
发明(设计)人: | 查文宇;张艳清;王纯斌;赵神州;费滔 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/18 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 610041 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于Spark的小文件合并方法及系统,本方案通过定时合并小文件任务,根据任务规则将多个分区中的多个文件合并成1个文件,降低小文件散落数量,当查询Hive库中数据时能降低磁盘读取负荷,网络传输消耗,数据合并等过程提升数据查询效率。解决了现有方案对源数据库中的数据抽取到Hive库中,Spark同时多个任务同时读取源数据库数据,并将数据写入到不同分区中导致的磁盘读取倍增、数据查询性能就会下降的问题。 | ||
搜索关键词: | 一种 基于 spark 文件 合并 方法 系统 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201911216907.0/,转载请声明来源钻瓜专利网。
- 上一篇:一种高强抗渗抗冻混凝土及其制备方法
- 下一篇:皮料直接腌制工艺