[发明专利]无服务器数据湖索引子系统及应用编程接口在审
申请号: | 202180032980.1 | 申请日: | 2021-03-16 |
公开(公告)号: | CN115552390A | 公开(公告)日: | 2022-12-30 |
发明(设计)人: | R·波塔拉朱;吴文涛;T·Y·金;L·诺维克;A·戴维 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 吴岩琨 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 数据 索引 子系统 应用 编程 接口 | ||
本文描述了提供无服务器、多引擎、多用户数据湖索引子系统和应用编程接口的方法、系统和计算机程序产品。索引被定义为派生数据集,并且以通用格式存储在数据湖上,使不同的引擎能够创建和/或发现用于工作负荷优化的索引。索引的实施例经由包括在索引中并且存储在数据湖上的元数据来实现对索引的状态控制和管理。
背景技术
由商业组织、科学研究人员等产生的所有形式的原始数据量可能相当大,为数百千兆字节的量级。现代系统收集和生成数据的速度往往比对此类数据进行有效分类和管理的速度高出许多倍。在这种情况下,数据湖得到了越来越多的采用。“数据湖”是一个数据存储平台,它被配置为以本地形式存储如此数量的原始数据,无论是结构化的还是非结构化的。数据湖的巨大规模,以及通常数据的非结构化性质,可能会使从数据中收集的所有信息难以得到有效利用。
另一方面,“数据仓库”通常存储结构化的或已处理的数据,这些数据可能更易于操作,用于各种业务智能或研究需求。然而,数据仓库不具有与数据湖近似相同的规模,因此可取回的信息可能更加有限。
然而,总体趋势是湖和仓库的融合。例如,数据仓库产品越来越多地在数据多样性和规模方面提供增强的能力,以接近数据湖的能力。数据湖产品显示,在数据湖中出现了对高效可更新和版本化的关系数据的支持,这些数据具有更改追踪和极具竞争力的超大规模关系查询能力。同样,数据湖产品越来越多地为用于报告、数据协调、安全性、共享、合规性和治理的关系工具链提供支持。
传统数据仓库系统在数据湖系统上提供索引支持的需求历来巨大。虽然有多种方式来提高数据库系统中的查询性能,但索引在为某些工作负荷提供极大的加速方面尤其有效,因为它们可以减少针对给定查询取回的数据量。然而,在分布式数据库系统和/或基于云的架构的上下文中提供索引解决方案会带来一些挑战。例如,采用基于云的模型的关键驱动因素是使用任何查询引擎存储和随后查询数据的灵活性。不幸的是,不同的查询引擎通常不能使用共同索引。
发明内容
提供本发明内容是为了以简化形式介绍选择的概念,这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用来限制所要求保护的主题的范围。
本文描述了查询引擎和系统,其经由索引规范和不同查询引擎可消耗的API来实现多引擎数据工作负荷优化,以创建、发现和使用存储在数据湖上的可发现位置中并且符合索引规范的索引。在一个示例方面,一种系统被配置为接受以多个数据查询形式的工作负荷,从查询中提取可索引列,从可索引列生成候选索引,选择并且然后构建最佳候选索引,其中构建索引符合索引规范并且被存储在数据湖上的预定位置中。在附加方面,系统中的查询引擎可以接收查询,生成用于该查询的查询计划,其被配置为使用一个或多个所构建的候选索引,并且执行该查询计划以生成查询结果。
在另一示例方面中,构建索引包括索引元数据,该索引元数据描述每个相应的构建索引的内容和谱系并且反映索引的状态。在另一方面,构建索引谱系包括查询计划信息,该查询计划信息与用于创建构建索引的查询相对应。
在另一方面,该系统包括第二查询引擎,其被配置为在数据湖中搜索存储在预定位置处的构建索引,接收查询,生成针对查询的查询计划,基于针对每个构建索引的索引元数据来确定相应的索引是否可以被用于优化查询计划,并且如果是,则优化查询计划以使用相应的构建索引,并且执行优化的查询计划以提供查询结果。
下面参照附图详细描述其他特征和优势以及各种示例的结构和操作。需要注意的是,这些想法和技术并不限于本文描述的具体示例。本文仅出于说明的目的而呈现这些示例。基于本文包含的教导,附加示例对于(多个)相关领域的技术人员而言是清楚的。
附图说明
附图,其并入本文并构成说明书的部分,示出了本申请的实施例,并且与说明书一起进一步用于解释实施例的原理并且使相关领域的技术人员能够制造和使用实施例。
图1示出了根据实施例的示例数据湖系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202180032980.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件检查方法及半导体器件检查装置
- 下一篇:用于机动车辆的转向柱
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置