[发明专利]基于压缩数据直接计算的数据库方法、系统、设备和介质有效
申请号: | 202210535252.9 | 申请日: | 2022-05-17 |
公开(公告)号: | CN114780502B | 公开(公告)日: | 2022-09-16 |
发明(设计)人: | 张峰;万韦涛;杜小勇 | 申请(专利权)人: | 中国人民大学 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/172;G06F16/16;G06F16/14 |
代理公司: | 北京纪凯知识产权代理有限公司 11245 | 代理人: | 冀志华 |
地址: | 100872 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 压缩 数据 直接 计算 数据库 方法 系统 设备 介质 | ||
本发明涉及一种基于压缩数据直接计算的数据库方法、系统、设备和介质。方法包括以下步骤:按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中;采用自底向上的压缩数据处理方法,在不解压的情况下,对存储系统中的压缩数据进行处理操作。本发明在对文件进行压缩时,采用基于语法规则解析的直接对压缩数据进行处理的算法,同时,在存储层直接对压缩数据进行处理,能够减小数据传输的次数以及传输的数量,使对压缩数据的直接处理性能大幅提高。因此,本发明可以广泛应用于数据处理领域。
技术领域
本发明涉及一种基于压缩数据直接计算的数据库方法、系统、设备和介质,属于大数据处理技术领域。
背景技术
数据处理对许多应用程序都很重要,从web搜索到系统诊断、安全性等等。在大数据时代,数据处理主要面临两方面的挑战:第一,数据量大了以后存储开销也非常大;第二,处理大规模数据耗时也很长。特别是在处理的数据持续快速增长的情况下,数据分析非常耗时,且常常需要大量的存储空间和内存空间。其中,缓解空间问题的一种常见方法是数据压缩。现有的压缩数据直接处理技术,可以使用基于语法规则描述的压缩方法对数据进行压缩,通过对语法规则解析达到在不解压数据的情况下直接对压缩数据进行处理。
现有的技术,一般将压缩后的结构分为三个层次,自下而上分别为元素层、规则层和DAG(有向无环图)层。其中:元素层包含的是最小的语法单位,一般是一个个单词;规则层包含的是由多个元素或规则组成的序列;DAG层是指一个完整的语法结构,它包含一个由规则和元素组成的序列,每个规则又由若干个规则或元素组成,整个结构是一个有向无环图。在此基础上,现有技术一般是按照自顶向下或自底向上的顺序去遍历整个结构,同时实施数据分析。
虽然现有的解决方案在只读查询处理方面显示了巨大的潜力,但一个功能完整的大数据系统必须同时支持数据查询和数据操作。特别是,大数据系统必须支持随机位置记录的更新以及记录的插入和删除。然而,现有的解决方案本身并不支持这些功能,因此想要修改压缩文件的话,每次修改时都必须对相当大的数据进行解压缩和重新压缩,从而导致显著的性能开销。
发明内容
针对上述问题,本发明的目的是提供一种基于压缩数据直接计算的数据库方法、系统、设备和介质,能在大数据环境下的存储系统中应用压缩数据直接处理技术以支持广泛的数据管理与分析。
为实现上述目的,本发明采取以下技术方案:
第一方面,本发明提供一种基于压缩数据直接计算的数据库方法,其包括以下步骤:
按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中;
采用自底向上的压缩数据处理方法,在不解压的情况下,对存储系统中的压缩数据进行处理操作。
进一步,所述按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中的方法,包括以下步骤:
1.1)将待压缩的文件进行分块,得到若干数据块;
1.2)根据待写入数据块中的数据,在哈希表中进行查找,并根据待写入数据块中的数据是否存在被重复数据块,若存在则进入步骤1.3),否则进入步骤1.4);
1.3)判断待写入数据块是否只被引用一次,若是,则增加被重复数据块的引用计数,将指向待写入数据块的指针指向该重复数据块,并且释放掉待写入数据块,删除哈希表中的记录;若待写入数据块已被引用一次以上,则不能释放待写入数据块,并减少其引用次数;
1.4)判断待写入数据块是否只被引用一次,若是,则删除哈希表中的记录释放待写入数据块,并修改哈希表中对应的记录;若已被引用一次以上,则减少待写入数据块修改前内容的引用计数,并分配一个新数据块来存储待写入数据块,同时将待写入数据块的指针指向新的数据块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210535252.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:新能源汽车电池端板挤压结构
- 下一篇:一种高稳定性精密可调谐旋转式立方体机构
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置