[发明专利]索引压缩方法、装置、计算机可读存储介质及电子设备在审

专利信息
申请号: 202110132075.5 申请日: 2021-01-31
公开(公告)号: CN112765113A 公开(公告)日: 2021-05-07
发明(设计)人: 郭乃洪;黄瑞祺;陈吉胜 申请(专利权)人: 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司
主分类号: G06F16/174 分类号: G06F16/174;G06F16/13
代理公司: 暂无信息 代理人: 暂无信息
地址: 100096 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 索引 压缩 方法 装置 计算机 可读 存储 介质 电子设备
【说明书】:

发明涉及索引压缩方法、装置、计算机可读存储介质及电子设备,该方法包括:将所述索引文件原有key分为高位部分和低位部分;复用所述高位部分与所述低位部分表示新offset;其中,作为新offset时,所述高位部分用于表示base.dat里面atomic.dat的区间范围;所述低位部分用于表示相对所述atomic.dat的偏移地址;将原有size的大小压缩为2个字节后作为新size;基于所述新key、所述新offset、所述新size以及原有crc16组成新的索引文件。将原有key进行分割,只留低位部分存储在内存中,且复用高位部分与低位部分作为offset,并将原有size的大小压缩为2个字节后作为新size,以此大大减小了索引文件的大小,进而有效降低了索引文件所占内存的大小。

技术领域

本发明涉及海量分布式小文件的存储索引技术领域,具体涉及索引压缩方法、装置、计算机可读存储介质及电子设备。

背景技术

在处理海量小文件(如数据大小为几KB或十几KB的文件)的系统的存储压力场景中,特别是操作系统的inode(索引节点)会占用一部分元数据,这样内核空间的压力特别大,在处理TB(Terabyte,太字节)级别的数据会有访问延时现象。所以现在一般使用文件聚合技术,在hdd(HardDiskDrive,硬盘驱动器)上分配一个大的空文件作为基本存储单元,命名为base.dat,每个base.dat大小设置为32GB。每个base.dat配置一个索引文件命名为base.idx。如图1所示,base.idx中包括key,offset,size,crc16这几个部分。

由此,在处理TB级别数据时,索引占用内存过多。以8TB为例,需要存储的索引值为,计算过程如下:

memory_8TB_size是8TB转换为字节的算法,单位是KB;

memory_8TB_size=8*1024*1024*1024;

如果存储的小文件大小是8KB,小文件的个数就是总大小除以8KB。

min_file_count=memory_8TB_size/8;

要计算索引占用的内存大小就是小文件个数乘以单个索引元数据的大小;

need_index_space=min_file_count*16/1024.0/1024.0/1024.0;need_index_space=16GB;其中need_index_space计算行里面与min_file_count相乘的16就是如图1所示的4个字节的key、4个字节的offset、4个字节的size、2个字节的crc16、2个字节的其他部分的数据大小相加得来的。

由此,目前需要有一种更好的方案来解决现有技术中索引占用内存过多的问题。

发明内容

本发明提供索引压缩方法、装置、计算机可读存储介质及电子设备,能够解决现有技术中索引占用内存过多的技术问题。

本发明解决上述技术问题的技术方案如下:

本发明实施例提出了一种索引压缩方法,应用于配置有索引文件的文件系统,所述索引文件包括:key、offset、size、crc16;该方法包括:

将所述索引文件原有key分为高位部分和低位部分;其中,所述高位部分与所述低位部分均为2个字节大小;所述高位部分存储在文件中用于定位索引;所述低位部分存储在内存中作为新key用于定位base.dat;

复用所述高位部分与所述低位部分表示新offset;其中,作为新offset时,所述高位部分用于表示base.dat里面atomic.dat的区间范围;所述低位部分用于表示相对所述atomic.dat的偏移地址;

将原有size的大小压缩为2个字节后作为新size;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110132075.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top