[发明专利]一种应用于数据库的快速检索方法及系统有效
申请号: | 202310281123.6 | 申请日: | 2023-03-22 |
公开(公告)号: | CN116010668B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 简勇华 | 申请(专利权)人: | 北京滴普科技有限公司 |
主分类号: | G06F16/903 | 分类号: | G06F16/903;G06F16/9035;G06F16/9038;G06F16/11 |
代理公司: | 北京国谦专利代理事务所(普通合伙) 11752 | 代理人: | 肖应国 |
地址: | 100081 北京市海淀区学院*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 应用于 数据库 快速 检索 方法 系统 | ||
本发明提供一种应用于数据库的快速检索方法及系统,其中,方法包括:接收用户的带谓词的查询操作;获取快照数据;基于快照数据和查询操作,输出符合谓词条件的最终行数据。快照数据通过如下步骤构建:进行建表操作后,生成初始快照;在每进行一批次数据写入并提交后生成一张快照。其中,快照包括:若干个分区级元数据记录。分区级元数据记录对应一个分区级元数据文件,分区级元数据文件由分区级元数据文件内的文件级元数据记录的统计结果生成。一个文件级元数据记录对应一个底层的数据文件本发明的应用于数据库的快速检索方法,实现企业数据湖的数据的检索,实现快速获取需要使用的数据。
技术领域
本发明涉及数据检索技术领域,特别涉及一种应用于数据库的快速检索方法及系统。
背景技术
数据湖概念的诞生,源自企业面临的一些挑战,如数据应该以何种方式处理和存储。
最开始的时候,每个应用程序会产生、存储大量数据,而这些数据并不能被其他应用程序使用,这种状况导致数据孤岛的产生。随后数据集市应运而生,应用程序产生的数据存储在一个集中式的数据仓库中,可根据需要导出相关数据传输给企业内需要该数据的部门或个人。
然而数据集市只解决了部分问题。剩余问题,包括数据管理、数据所有权与访问控制等都亟须解决,因为企业寻求获得更高的使用有效数据的能力。
为了解决前面提及的各种问题,企业有很强烈的诉求搭建自己的数据湖,数据湖不但能存储传统类型数据,也能存储任意其他类型数据,并且能在它们之上做进一步的处理与分析,产生最终输出供各类程序消费。
数据湖是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。
数据湖从企业的多个数据源获取原始数据,并且针对不同的目的,同一份原始数据还可能有多种满足特定内部模型格式的数据副本。因此,数据湖中被处理的数据可能是任意类型的信息,从结构化数据到完全非结构化数据。
为了实现数据湖内的数据的使用,企业用户亟需一种快速检索的方法,实现快速获取需要使用的数据。
发明内容
本发明目的之一在于提供了一种应用于数据库的快速检索方法,实现企业数据湖的数据的检索,实现快速获取需要使用的数据。
本发明实施例提供的一种应用于数据库的快速检索方法,包括:
接收用户的带谓词的查询操作;
获取快照数据;
基于快照数据和查询操作,输出符合谓词条件的最终行数据;
其中,快照数据通过如下步骤构建:
进行建表操作后,生成初始快照;
在每进行一批次数据写入并提交后生成一张快照。
其中,快照包括:若干个分区级元数据记录。
分区级元数据记录对应一个分区级元数据文件,分区级元数据文件由分区级元数据文件内的文件级元数据记录的统计结果生成。
一个文件级元数据记录对应一个底层的数据文件。
优选的,基于快照数据和查询操作,输出符合谓词条件的最终行数据,包括:
解析查询操作,确定查询谓词;
解析快照数据,确定各个分区级元数据记录以及对应的分区级元数据的分区列谓词;
基于查询谓词和分区级元数据的分区列谓词,确定分区级元数据记录,将确定的分区级元数据记录作为目标分区;
解析目标分区,确定各个文件级元数据记录以及对应的文件级元数据的分区列谓词;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京滴普科技有限公司,未经北京滴普科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310281123.6/2.html,转载请声明来源钻瓜专利网。