[发明专利]搜索引擎的解压缩方法、系统、介质及电子设备在审
申请号: | 202210704425.5 | 申请日: | 2022-06-21 |
公开(公告)号: | CN115185901A | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 王晓羽 | 申请(专利权)人: | 康键信息技术(深圳)有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172 |
代理公司: | 上海汉之律师事务所 31378 | 代理人: | 冯华 |
地址: | 518066 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 搜索引擎 解压缩 方法 系统 介质 电子设备 | ||
本发明提供一种搜索引擎的解压缩方法、系统、介质及电子设备,涉及解压缩技术领域;所述方法包括以下步骤:在搜索引擎解压缩目标文件时,将所述目标文件拆分成多个子块;于内存中设置第一预设数量且相互独立的子区域,并将解压缩用的字典存储于每一所述子区域中;基于zstd算法和所述子区域中存储的字典解压缩所述子块;每一所述子区域中存储的字典对应解压缩一所述子块;本发明基于zstd算法,提供了一种全新的压缩算法,且其压缩率和速度相比现有LZ4算法和Deflate算法都得到了有效提升,极大缓解了搜索引擎在海量文本数据存储上的矛盾,从而更好地满足了用户的需求。
技术领域
本发明属于解压缩技术领域,特别是涉及一种搜索引擎的解压缩方法、系统、介质及电子设备。
背景技术
全文本搜索引擎技术和相关产品(Lucene)广泛应用于日志、时序类存储和分析等大数据场景之中,这些场景普遍具有:
1)数据规模大:PB海量级别。
2)存储周期长:7~30天不等。
3)存储介质成本高:满足高性能读取需求的SSD。
4)查询时效延时低:入库后毫秒级查询延迟等特征。
随着用户业务的发展,用户希望能够存储更多的数据,拥有更长的存储周期。但这样会导致存储成本的急剧上升。碰到这情况,一般都是辅助以常规的运维手段,例如清理旧索引;降低副本数;扩容;使用价格更为低廉的SATA盘或对象存储来满足更长的存储周期。这样从根本上无法解决用户的存储成本的矛盾,而且带来额外的运维成本和风险。
存储的成本和效率上的矛盾,从底层技术角度来看,就是看有无办法以更加高效的压缩编码来存储我们的底层的各类数据文件。目前业内的代表性的搜索引擎产品(Lucene),在压缩编码的支持上面,普遍要么采用为了追求更快压缩速度而牺牲高压缩比的LZ4算法,要么采用追求极致压缩比而牺牲解压缩速度的Deflate算法。这两种算法都无法从性能和存储成本上满足我们的用户需求。
LZ4是一种无损压缩算法,每核提供大于500MB/s的压缩速度(大于0.15Bytes/cycle)。它的特点是解码速度极快,每核速度为多GB/s(约1Bytes/cycle)。但是压缩比并不高,比Deflate等高压缩比算法压缩后的空间多了46%,这就意味着更多的数据传输时间和磁盘空间占用。即使是最大的压缩比也并不高,仅仅从1.79提升到了2.11,但是耗时却从5s提升到了51s。
Deflate是一种数据无损压缩算法,它广泛用于zip文件压缩以及png图片压缩。deflate结合了huffman编码和LZ77编码。他虽然拥有极高的压缩比,但性能相比其他快速压缩算法要慢上一个数量级,而且对系统CPU的资源使用方面也无法做到最优。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种搜索引擎的解压缩方法、系统、介质及电子设备,用于解决现有LZ4压缩算法和Deflate压缩算法,无法从压缩性能和存储成本上满足用户需求的问题。
为实现上述目的及其他相关目的,本发明提供一种搜索引擎的解压缩方法,包括以下步骤:在搜索引擎解压缩目标文件时,将所述目标文件拆分成多个子块;于内存中设置第一预设数量且相互独立的子区域,并将解压缩用的字典存储于每一所述子区域中;基于zstd算法和所述子区域中存储的字典解压缩所述子块;每一所述子区域中存储的字典对应解压缩一所述子块。
于本发明的一实施例中,在所述基于zstd算法和所述子区域中存储的字典解压缩所述子块的步骤之前,所述方法还包括以下步骤:利用所述zstd算法扩展所述搜索引擎的底层存储压缩编码;在利用所述zstd算法扩展所述搜索引擎的底层存储压缩编码后,所述底层存储压缩编码对应的压缩算法至少包括:所述zstd算法;当所述压缩算法还包括除所述zstd算法外的其它算法时,所述zstd算法的优先级最高。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于康键信息技术(深圳)有限公司,未经康键信息技术(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210704425.5/2.html,转载请声明来源钻瓜专利网。