[发明专利]数据文件的合并方法、装置、存储介质及处理器在审
申请号: | 201911347735.0 | 申请日: | 2019-12-24 |
公开(公告)号: | CN113032340A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 汪翔;沈春辉;江龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/31 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 谢湘宁;张文华 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据文件 合并 方法 装置 存储 介质 处理器 | ||
本发明公开了一种数据文件的合并方法、装置、存储介质及处理器。包括:从多个待合并数据文件中分别解析出与每个数据文件对应的待处理数据块流;将解析得到的数据块流输入至计算芯片进行合并处理,输出处理后数据块流、每个处理后数据块的第一边界标识、处理后布隆块流以及每个处理后布隆块的第二边界标识;将处理后数据块流和处理后布隆块流整合至目标数据文件,并记录每个处理后数据块在目标数据文件中的第一偏移量以及每个处理后布隆块在目标数据文件中的第二偏移量;利用第一边界标识、第一偏移量、第二边界标识以及第二偏移量构建索引块流,并将索引块流整合至目标数据文件。解决了现有技术无法对数据量较大的数据文件进行合并的技术问题。
技术领域
本发明涉及数据处理领域,具体而言,涉及一种数据文件的合并方法、装置、存储介质及处理器。
背景技术
HBbse是一个分布式的、面向列的开源数据库,适合于非结构化数据存储的数据库,基于HBase数据库典型的LSM-Tree架构存储引擎实现如下:
1.写操作会写入内存的buffer,内存中通过某种数据结构(如skiplist)保持key有序。
2.数据追加写到磁盘Log文件,以备必要时恢复。
3.内存中的数据定时或按固定大小地刷到磁盘,更新操作只不断地写到内存,并不更新磁盘上已有文件。这些有序文件被称为SST。
4.随着越来越多写操作,磁盘上积累的SST数据文件也越来越多,这些文件不可修改且有序。
5.定时对SST数据文件进行合并操作(compaction),消除冗余数据,减少文件数量。
合并操作可以减少LSM-Tree中SST的数量。减少SST数量,意味着每次LSM-Tree数据库在读取数据时,所需要访问的SST数据文件数变少,一般而言可以提升LSM-Tree数据库的读性能。减少SST数据文件数提高读性能是合并操作的正面影响。
需要说明的是,合并操作是一个计算密集型的任务。图1是根据现有技术的一种合并操作的示意图,如图1所示,合并操作将多个SST数据文件读出,对SST数据文件进行解压缩,归并排序,压缩等操作后,生成目标SST数据文件。而解压缩,归并排序,压缩等流程,均是较为消耗计算资源的计算密集型操作,在使用CPU作为计算单元的前提下,单次Compaction任务执行期间,会将CPU使用率提升到相当高的水平。在大多数情况下,高CPU使用率会降低LSM-Tree数据库的读取性能与延迟表现。因此,高CPU使用率是合并操作的负面影响。
综上,对合并操作而言,文件的读性能主要受文件数量和CPU计算力影响,因此,现有技术无法对于数量较大的数据文件进行有效合并。
针对上述现有技术无法对数据量较大的数据文件进行合并的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据文件的合并方法、装置、存储介质及处理器,以至少解决现有技术无法对数据量较大的数据文件进行合并的技术问题。
根据本发明实施例的一个方面,提供了一种数据文件的合并方法,包括:从多个待合并数据文件中分别解析出与每个数据文件对应的待处理数据块流;将解析得到的数据块流输入至计算芯片进行合并处理,输出处理后数据块流、每个处理后数据块的第一边界标识、处理后布隆块流以及每个处理后布隆块的第二边界标识;将所述处理后数据块流和所述处理后布隆块流整合至目标数据文件,并记录每个处理后数据块在所述目标数据文件中的第一偏移量以及每个处理后布隆块在所述目标数据文件中的第二偏移量;利用所述第一边界标识、所述第一偏移量、所述第二边界标识以及所述第二偏移量构建索引块流,并将所述索引块流整合至所述目标数据文件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911347735.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种树脂拉链
- 下一篇:一种控制流平坦化的源代码混淆生成方法及装置