[发明专利]数据处理方法、装置及电子设备在审
申请号: | 202010294639.0 | 申请日: | 2020-04-15 |
公开(公告)号: | CN113535709A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 雷鹏 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/174 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 陈龙 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 | ||
本公开实施例提供了一种数据处理方法、装置及电子设备,属于数据处理技术领域,该方法包括:获取待读取的目标记录的标识,其中,所述目标记录为数据集合中的任一记录;在预先存储的记录标识与记录存储区域的第一对应关系中,根据所述目标记录的标识,查找所述目标记录的存储区域;在所述数据集合对应的存储空间中,获取所述目标记录的存储区域内存储的压缩数据,其中,所述压缩数据包括至少一个指针;根据预设的指针与样本数据的第二对应关系,将所述压缩数据的指针替换为对应的样本数据,得到所述目标记录的全部数据。通过本公开的数据处理方案,提高了数据读取操作的效率,减少了不必要的解压操作和缓存占用。
技术领域
本公开涉及数据处理技术领域,尤其涉及一种数据处理方法、装置及电子设备。
背景技术
数据库的数据由很多条记录Record组成,称为数据集合。为了区分数据集合中的每一条记录,将记录进行编号。为缩减数据存储空间,通常要将数据压缩存储。现有的数据压缩方案为:将数据集合中的全部记录划分为多个块,每个块包含若干条编号相邻的记录,使用通用的压缩算法单独对每个分块进行整块的压缩。再对多个分块建立一个索引,称为块索引。
在进行数据读取时,需要利用块索引定位到待查找的记录编号所在的块,解压该块,然后从中提取对应编号的那条记录,丢弃其它记录。这样就会造成多余的解压操作和缓存占用。
可见,现有的数据读取操作存在多余的解压操作和缓存占用的技术问题。
发明内容
有鉴于此,本公开实施例提供一种数据处理方法、装置及电子设备,至少部分解决现有技术中存在的问题。
第一方面,本公开实施例提供了一种数据处理方法,包括:
获取待读取的目标记录的标识,其中,所述目标记录为数据集合中的任一记录;
在预先存储的记录标识与记录存储区域的第一对应关系中,根据所述目标记录的标识,查找所述目标记录的存储区域;
在所述数据集合对应的存储空间中,获取所述目标记录的存储区域内存储的压缩数据,其中,所述压缩数据包括至少一个指针;
根据预设的指针与样本数据的第二对应关系,将所述压缩数据的指针替换为对应的样本数据,得到所述目标记录的全部数据。
根据本公开实施例的一种具体实现方式,所述获取待读取的目标记录的标识的步骤之前,所述方法还包括:
从所述数据集合中抽取样本数据;
创建指针与样本数据的所述第二对应关系;
针对所述数据集合中的每个记录,查找所述记录的全部数据片段和所述样本数据中均存在的目标片段;
基于所述第二对应关系,将所述记录中的所述目标片段替换为所述目标片段对应的指针,得到所述记录的压缩数据;
将所述数据集合的全部记录对应的压缩数据存储到所述数据集合对应的存储空间;
创建所述数据集合的全部记录的记录标识与记录存储区域的所述第一对应关系。
根据本公开实施例的一种具体实现方式,所述创建指针与样本数据的所述第二对应关系的步骤,包括:
利用所抽取的样本数据创建全局字典,其中,所述样本数据中每个数据片段均对应所述全局字典中的一个指针。
根据本公开实施例的一种具体实现方式,所述创建所述数据集合的全部记录的记录标识与记录存储区域的所述第一对应关系的步骤,包括:
创建索引数组,其中,所述索引数组的每个元素包含1个记录的记录标识和记录存储区域。
根据本公开实施例的一种具体实现方式,所述数据集合的记录总量为N,其中,N为大于2的正整数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010294639.0/2.html,转载请声明来源钻瓜专利网。