[发明专利]Presto查询引擎查询数据仓库Hive的方法在审
申请号: | 202110782624.3 | 申请日: | 2021-07-12 |
公开(公告)号: | CN113535752A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 宦传建 | 申请(专利权)人: | 上海中通吉网络技术有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/25;G06F16/28 |
代理公司: | 北京细软智谷知识产权代理有限责任公司 11471 | 代理人: | 付登云 |
地址: | 201700 上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | presto 查询 引擎 数据仓库 hive 方法 | ||
本发明涉及一种Presto查询引擎查询数据仓库Hive的方法,属于数据查询技术领域,该方法通过接收用户提交的SQL查询信息;基于Presto查询引擎对SQL查询信息进行解析,获取解析数据;若解析数据存在预设白名单中的数据表,则将数据表替换为Alluxio存储;通过Presto查询引擎读取Alluxio。针对部分对查询延迟稳定性有要求的业务,将相关的表添加到Alluxio白名单中,降低存储成本;当Alluxio出现故障时,Presto能够自动切换到查询Hive,实现降级。
技术领域
本发明属于数据查询技术领域,具体涉及一种Presto查询引擎查询数据仓库Hive的方法。
背景技术
Presto是一种开源的基于内存的高性能SQL查询引擎,支持多数据源,通常数据开发人员使用它来访问数据仓库Hive。Alluxio是一种开源的分布式内存文件系统,在大数据技术栈中,介于存储和计算之间,Alluxio内存至上的层次化架构使得数据的访问速度能比现有方案快几个数量级。
现有的Presto查询Hive存在的以下问题:当大数据离线任务执行时,会造成Hive资源的占用,同时大数据廉价存储的读取性能较低,这些导致Presto查询Hive时,无法对外提供稳定高效的查询服务。
为了解决该技术问题,相关技术中通常使用Alluxio完全替换Hive,Presto直接查询Alluxio。但是,使用Alluxio完全替换Hive会造成额外的存储成本;当Alluxio出现故障时,没有相应的降级方案;对于频繁更新的表,Alluxio缓存命中率低,加速效果不明显。因此,如何实现对Hive的稳定高效查询,成为现有技术中亟待解决的技术问题。
发明内容
本发明提供了一种Presto查询引擎查询数据仓库Hive的方法,以解决现有技术中Presto查询引擎查询数据仓库Hive时查询稳定性低、效率低的技术问题。
本发明提供的技术方案如下:
一方面,一种Presto查询引擎查询数据仓库Hive的方法,包括:
接收用户提交的SQL查询信息;
基于Presto查询引擎对所述SQL查询信息进行解析,获取解析数据;
若所述解析数据存在预设白名单中的数据表,则将所述数据表替换为Alluxio存储;
通过Presto查询引擎读取所述Alluxio。
可选的,在所述获取解析数据,之后,还包括:
若所述解析数据中不存在所述预设白名单中的数据表,则读取数据仓库Hive中的数据进行查询;和/或,
若所述Alluxio故障,则降级读取数据仓库Hive中的数据。
可选的,所述通过Presto查询引擎读取所述Alluxio,包括:
若Presto查询引擎首次加载Alluxio,则读取数据仓库Hive中数据并缓存;
若Presto查询引擎非首次加载Alluxio,则读取所述Alluxio中数据;
当白名单中的Hive表产生变更时,利用Hive插件实现Alluxio的缓存的清理。
可选的,还包括:
若数据仓库Hive表变更,则基于Hive插件程序进行Alluxio缓存清理。
可选的,还包括:
接收预设白名单设置请求;
根据所述预设白名单设置请求,设置所述预设白名单;所述预设白名单包括数据表。
本发明的有益效果为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海中通吉网络技术有限公司,未经上海中通吉网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110782624.3/2.html,转载请声明来源钻瓜专利网。