[发明专利]数据存储方法、查询方法及装置无效

专利信息
申请号: 201010517575.2 申请日: 2010-10-22
公开(公告)号: CN101968806A 公开(公告)日: 2011-02-09
发明(设计)人: 武新 申请(专利权)人: 天津南大通用数据技术有限公司
主分类号: G06F17/30 分类号: G06F17/30
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 逯长明;王宝筠
地址: 100097 北京市海淀区海淀区蓝靛厂*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 存储 方法 查询 装置
【说明书】:

技术领域

本申请涉及数据库技术领域,特别涉及一种数据存储方法、查询方法及装置。

背景技术

数据库是按照数据结构来组织、存储和管理数据的数据仓库,基于数据库的应用包括数据存储、分析、查询等。现有技术中,可以采用行存模型进行分析型应用,在建立行存模型时,数据库将信息逻辑地存储为若干数据表,数据表为二维列表,其每一行都是一条完整的数据,称为一条记录或者一个元组,每一条记录都由若干属性构成,每个属性称为一个字段或者一列。现有的行存数据库为了支持对每一条数据进行操作,在磁盘上以每行数据作为最小存储单元进行存储,每个最小存储单元即为一个I/O(Input/Output,输入/输出)单元。

发明人在对现有技术的研究过程中发现,在对现有行存数据库进行数据分析时,需要关注的通常是每行数据中的若干字段,而非所有字段,但是由于I/O单元的限制,现有的行存数据库在进行数据操作时,需要从磁盘读取整条记录,即读取每行数据的所有字段数据,而对无效字段的读取将占用磁盘的I/O资源,导致数据库的查询性能降低,特别数据库中保存了海量数据时,将极大降低数据库性能。

发明内容

本申请实施例的目的在于提供一种数据存储方法、查询方法及装置,以解决现有技术中以行存模型进行数据存储和查询占用磁盘资源,查询性能不高的问题。

为解决上述技术问题,本申请实施例提供如下技术方案:

一种数据存储方法,包括:

获取源数据表,并将所述源数据表按照列结构进行拆分;

对每列数据进行分组,获得多个数据包,为每个所述数据包标注知识信息;

保存所述多个数据包及每个数据包的知识信息。

所述知识信息至少包括:数据包的边界值、聚合值、总计数值;

所述知识信息还包括:平均值、空值个数、自定义函数值。

所述对每列数据进行分组,获得多个数据包包括:

顺序获取每列数据的数据值;

判断所获取的数据值的个数是否满足预先设置的总计数值,若满足预先设置的总计数值,则将所获取的数据值生成数据包,返回所述顺序获取每列数据的数据值的步骤;

若不满足预先设置的总计数值,则判断是否获取完当前列数据的数据值,若是,则将所获取的数据值生成数据包,否则,返回所述顺序获取每列数据的数据值的步骤。

所述保存多个数据包之前,还包括:根据所述数据包的类型,按照预设的压缩算法对所述数据包进行压缩。

一种数据查询方法,应用前述的数据存储方法所存储的数据进行数据查询,包括:

以数据包为粒度建立本地位图关联索引;

接收查询指令后,获取所述查询指令中的关联字段、查询条件和查询关键字段;

当所述查询指令中的关联字段与本地位图关联索引中的关联字段一致时,获取本地位图关联索引;

根据所述本地位图关联索引中与所述查询关键字段相关的字段所在的数据包的知识信息,查询满足所述查询条件的数据包。

所述以数据包为粒度建立本地位图关联索引包括:

接收创建本地位图关联索引的指令,所述指令中包括需要关联的事实表的名称、维度表的名称、关联字段的名称、物化字段的名称;

将事实表中关联字段所在列的每一个数据包分别与所述维度表进行关联,并根据所述物化字段建立位图矩阵。

还包括:按照预设的压缩算法对所述本地位图关联索引进行压缩。

所述获取本地位图关联索引包括:

将所述查询指令中的关联字段替换为本地位图关联索引中的关联字段;

根据所述查询关键字段读取所述本地位图关联索引。

一种数据存储装置,包括:

获取单元,用于获取源数据表;

拆分单元,用于将所述源数据表按照列结构进行拆分;

分组单元,用于对每列数据进行分组,获得多个数据包,为每个所述数据包标注知识信息;

保存单元,用于保存所述多个数据包及每个数据包的知识信息。

所述分组单元包括:

数据值获取单元,用于顺序获取每列数据的数据值;

计数值判断单元,用于判断所获取的数据值的个数是否满足预先设置的总计数值;

结果执行单元,用于当所述计数值判断单元判断满足预先设置的总计数值时,则将所获取的数据值生成数据包,并返回所述数据值获取单元执行功能;当所述计数值判断单元判断不满足预先设置的总计数值时,判断是否获取完当前列数据的数据值,若是,则将所获取的数据值生成数据包,否则,返回所述数据值获取单元执行功能。

还包括:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津南大通用数据技术有限公司,未经天津南大通用数据技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201010517575.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top