[发明专利]一种基于sql的查询方法及系统在审

申请号：	201610887292.4	申请日：	2016-10-11
公开（公告）号：	CN106649503A	公开（公告）日：	2017-05-10
发明（设计）人：	温宗臣;张翼;何良均;范卫卫;冯森林;李冰;曾攀;严亮;张书凡	申请（专利权）人：	北京集奥聚合科技有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	北京和信华成知识产权代理事务所(普通合伙)11390	代理人：	胡剑辉
地址：	100085 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 sql 查询方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及大数据处理的技术领域，尤其涉及一种基于sql的查询方法，以及基于sql的查询系统。

背景技术

在大数据领域，为了降低集群使用的门槛，通常使用类sql语言(结构化查询语言(Structured Query Language)，简称sql，是一种特殊目的的编程语言，是一种数据库查询和程序设计语言，用于存取数据以及查询、更新和管理关系数据库系统；同时也是数据库脚本文件的扩展名)来进行大数据运算，目前支持sql语言的主流查询引擎有hive(Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能)，presto(presto是一个开源的分布式sql查询引擎，适用于交互式分析查询，数据量支持GB到PB字节)与spark(spark是UC Berkeley AMP lab(加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架，spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法)等。

一般情况下，需要把sql语句提交到确定查询引擎上，即需要人工来指定需要使用的查询引擎，在提交语句的那一刻就决定了此语句应该在hive查询引擎上执行，还是在presto或者spark查询引擎上执行，这三个运算平台完全独立。

每一个sql语句的计算复杂度是不同的，它取决于sql将要计算的数据量的大小以及sql本身的逻辑复杂度，在实际工作中，sql任务大多数为例行任务，例行化之后，随着数据量的增长，sql的复杂度是随之快速增长，而sql的执行引擎并不能动态地调整，这样就会带来执行效率的降低，甚至任务执行的失败。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于sql的查询方法，其能够提升查询效率，同时保证查询稳定性。

本发明的技术方案是：这种基于sql的查询方法，该方法包括以下步骤：

(1)获取到sql语句的查询计划，进而找出参与运算的数据量，同时找到计算方法；

(2)根据参与运算的数据量及计算方法，选择采用hive、presto、spark中的一种作为查询引擎。

本发明通过对sql语句运算复杂度的自动化评估，再根据各计算引擎擅长的计算场景，就可以智能选择计算引擎，以达到提升运算效率的目的，同时保证了查询稳定性。

还提供了一种基于sql的查询系统，该系统包括：

数据量及计算模式识别模块，其配置来获取到sql语句的查询计划，进而找出参与运算的数据量，同时找到计算方法；

查询引擎智能匹配模块，其配置来根据参与运算的数据量及计算方法，选择采用hive、presto、spark中的一种作为查询引擎。

附图说明