[发明专利]基于压缩数据直接计算的数据库方法、系统、设备和介质有效

专利信息
申请号: 202210535252.9 申请日: 2022-05-17
公开(公告)号: CN114780502B 公开(公告)日: 2022-09-16
发明(设计)人: 张峰;万韦涛;杜小勇 申请(专利权)人: 中国人民大学
主分类号: G06F16/174 分类号: G06F16/174;G06F16/172;G06F16/16;G06F16/14
代理公司: 北京纪凯知识产权代理有限公司 11245 代理人: 冀志华
地址: 100872 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 压缩 数据 直接 计算 数据库 方法 系统 设备 介质
【说明书】:

发明涉及一种基于压缩数据直接计算的数据库方法、系统、设备和介质。方法包括以下步骤:按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中;采用自底向上的压缩数据处理方法,在不解压的情况下,对存储系统中的压缩数据进行处理操作。本发明在对文件进行压缩时,采用基于语法规则解析的直接对压缩数据进行处理的算法,同时,在存储层直接对压缩数据进行处理,能够减小数据传输的次数以及传输的数量,使对压缩数据的直接处理性能大幅提高。因此,本发明可以广泛应用于数据处理领域。

技术领域

本发明涉及一种基于压缩数据直接计算的数据库方法、系统、设备和介质,属于大数据处理技术领域。

背景技术

数据处理对许多应用程序都很重要,从web搜索到系统诊断、安全性等等。在大数据时代,数据处理主要面临两方面的挑战:第一,数据量大了以后存储开销也非常大;第二,处理大规模数据耗时也很长。特别是在处理的数据持续快速增长的情况下,数据分析非常耗时,且常常需要大量的存储空间和内存空间。其中,缓解空间问题的一种常见方法是数据压缩。现有的压缩数据直接处理技术,可以使用基于语法规则描述的压缩方法对数据进行压缩,通过对语法规则解析达到在不解压数据的情况下直接对压缩数据进行处理。

现有的技术,一般将压缩后的结构分为三个层次,自下而上分别为元素层、规则层和DAG(有向无环图)层。其中:元素层包含的是最小的语法单位,一般是一个个单词;规则层包含的是由多个元素或规则组成的序列;DAG层是指一个完整的语法结构,它包含一个由规则和元素组成的序列,每个规则又由若干个规则或元素组成,整个结构是一个有向无环图。在此基础上,现有技术一般是按照自顶向下或自底向上的顺序去遍历整个结构,同时实施数据分析。

虽然现有的解决方案在只读查询处理方面显示了巨大的潜力,但一个功能完整的大数据系统必须同时支持数据查询和数据操作。特别是,大数据系统必须支持随机位置记录的更新以及记录的插入和删除。然而,现有的解决方案本身并不支持这些功能,因此想要修改压缩文件的话,每次修改时都必须对相当大的数据进行解压缩和重新压缩,从而导致显著的性能开销。

发明内容

针对上述问题,本发明的目的是提供一种基于压缩数据直接计算的数据库方法、系统、设备和介质,能在大数据环境下的存储系统中应用压缩数据直接处理技术以支持广泛的数据管理与分析。

为实现上述目的,本发明采取以下技术方案:

第一方面,本发明提供一种基于压缩数据直接计算的数据库方法,其包括以下步骤:

按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中;

采用自底向上的压缩数据处理方法,在不解压的情况下,对存储系统中的压缩数据进行处理操作。

进一步,所述按照存储系统的数据粒度对待压缩的文件进行分块,并对得到的各数据块进行压缩后,存储到存储系统中的方法,包括以下步骤:

1.1)将待压缩的文件进行分块,得到若干数据块;

1.2)根据待写入数据块中的数据,在哈希表中进行查找,并根据待写入数据块中的数据是否存在被重复数据块,若存在则进入步骤1.3),否则进入步骤1.4);

1.3)判断待写入数据块是否只被引用一次,若是,则增加被重复数据块的引用计数,将指向待写入数据块的指针指向该重复数据块,并且释放掉待写入数据块,删除哈希表中的记录;若待写入数据块已被引用一次以上,则不能释放待写入数据块,并减少其引用次数;

1.4)判断待写入数据块是否只被引用一次,若是,则删除哈希表中的记录释放待写入数据块,并修改哈希表中对应的记录;若已被引用一次以上,则减少待写入数据块修改前内容的引用计数,并分配一个新数据块来存储待写入数据块,同时将待写入数据块的指针指向新的数据块;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民大学,未经中国人民大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210535252.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top