[发明专利]数据处理方法、装置及电子设备在审
申请号: | 202010294639.0 | 申请日: | 2020-04-15 |
公开(公告)号: | CN113535709A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 雷鹏 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/2455;G06F16/174 |
代理公司: | 北京竹辰知识产权代理事务所(普通合伙) 11706 | 代理人: | 陈龙 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 电子设备 | ||
1.一种数据处理方法,其特征在于,包括:
获取待读取的目标记录的标识,其中,所述目标记录为数据集合中的任一记录;
在预先存储的记录标识与记录存储区域的第一对应关系中,根据所述目标记录的标识,查找所述目标记录的存储区域;
在所述数据集合对应的存储空间中,获取所述目标记录的存储区域内存储的压缩数据,其中,所述压缩数据包括至少一个指针;
根据预设的指针与样本数据的第二对应关系,将所述压缩数据的指针替换为对应的样本数据,得到所述目标记录的全部数据。
2.根据权利要求1所述的方法,其特征在于,所述获取待读取的目标记录的标识的步骤之前,所述方法还包括:
从所述数据集合中抽取样本数据;
创建指针与样本数据的所述第二对应关系;
针对所述数据集合中的每个记录,查找所述记录的全部数据片段和所述样本数据中均存在的目标片段;
基于所述第二对应关系,将所述记录中的所述目标片段替换为所述目标片段对应的指针,得到所述记录的压缩数据;
将所述数据集合的全部记录对应的压缩数据存储到所述数据集合对应的存储空间;
创建所述数据集合的全部记录的记录标识与记录存储区域的所述第一对应关系。
3.根据权利要求2所述的方法,其特征在于,所述创建指针与样本数据的所述第二对应关系的步骤,包括:
利用所抽取的样本数据创建全局字典,其中,所述样本数据中每个数据片段均对应所述全局字典中的一个指针。
4.根据权利要求3所述的方法,其特征在于,所述创建所述数据集合的全部记录的记录标识与记录存储区域的所述第一对应关系的步骤,包括:
创建索引数组,其中,所述索引数组的每个元素包含1个记录的记录标识和记录存储区域。
5.根据权利要求4所述的方法,其特征在于,所述数据集合的记录总量为N,其中,N为大于2的正整数;
所述索引数组的元素总数为(N+1),第i个元素包含第i个记录的记录标识和第i个记录在所述数据集合的存储空间中的起始存储位置,第(N+1)个元素包含所述数据集合对应的存储空间的总长度,i小于或者等于N;
所述在预先存储的记录标识与记录存储区域的第一对应关系中,根据所述目标记录的标识,查找所述目标记录的存储区域的步骤,包括:
在所述索引数组中,根据所述目标记录的标识查找所述目标记录的起始存储位置,和所述目标记录的下一邻接记录的起始存储位置;
将所述目标记录的下一邻接记录的起始存储位置减去所述目标记录的起始存储位置,得到所述目标记录的存储长度;
根据所述目标记录的起始存储位置和所述目标记录的存储长度,确定所述目标记录在所述数据集合的存储空间中的存储区域。
6.根据权利要求3所述的方法,其特征在于,所述查找所述记录的全部数据片段和所述样本数据中均存在的目标片段的步骤,包括:
利用全局匹配算法,查找所述记录的全部数据片段和所述样本数据中均存在的目标片段。
7.根据权利要求6所述的方法,其特征在于,所述基于所述第二对应关系,将所述记录中的所述目标片段替换为所述目标片段对应的指针,得到所述记录的压缩数据的步骤,包括:
判断所述目标片段的实际长度是否大于或者等于第一预设长度;
若所述目标片段的实际长度大于或者等于第一预设长度,将所述记录中的所述目标片段替换为所述目标片段对应的指针。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010294639.0/1.html,转载请声明来源钻瓜专利网。