[发明专利]基于Spark SQL的数据处理方法及装置、存储介质及计算设备在审
申请号: | 201811214789.5 | 申请日: | 2018-10-18 |
公开(公告)号: | CN109408537A | 公开(公告)日: | 2019-03-01 |
发明(设计)人: | 姚琴 | 申请(专利权)人: | 网易(杭州)网络有限公司 |
主分类号: | G06F16/2453 | 分类号: | G06F16/2453;G06F16/2455 |
代理公司: | 北京汉昊知识产权代理事务所(普通合伙) 11370 | 代理人: | 朱海波 |
地址: | 310052 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 上下文变量 数据处理 会话 租户 存储介质 代理用户 计算设备 预设关系 数据处理装置 运行时环境 实例化 服务器 查找 响应 创建 应用 服务 | ||
本发明的实施方式提供了一种基于Spark SQL的数据处理方法。该方法包括:响应于会话的发起,根据发起会话的代理用户的用户名,在预设关系集中查找该用户名对应的Spark上下文变量实例;若未查找到则新建与之对应的Spark上下文变量并实例化,并在预设关系集中添加该用户名至少与对应的Spark上下文变量实例之间的对应关系;根据发起会话的代理用户的用户名对应的Spark上下文变量实例,创建对应的运行时环境来执行对应的数据处理,该方法能够通过在一台服务器上运行单个应用实例来为多个租户提供服务,实现多租户功能。此外,本发明的实施方式提供了一种基于Spark SQL的数据处理装置、存储介质及计算设备。
技术领域
本发明的实施方式涉及数据处理领域,更具体地,本发明的实施方式涉及一种基于Spark SQL的数据处理方法及装置、存储介质及计算设备。
背景技术
大数据技术是目前较为热门的一项技术,指对规模巨大的数据进行查询、分析等处理的技术。随着大数据时代的来临,与大数据相关的数据仓库、数据安全、数据分析、数据挖掘等应用已逐渐成为IT行业的研究热点。
例如,诞生于加州大学伯利克分校AMPLab的Apache Spark是一个基于内存计算的大数据计算框架。其中,Spark是MapReduce(MR)的替代方案,目的在于提供更高效的数据处理能力,且其能够兼容HDFS分布式存储层,兼容Apache Hive元数据仓库,可融入Hadoop的生态系统,以弥补缺失MapReduce的不足。通常,Spark程序为主从(master/slave)结构,驱动器(Driver)作为master(指主动发起请求的一方)负责其计算最小单位任务(task)的调度,而执行器(Executor)负者task的运算。但是,MapReduce不能满足大部分大数据场景下的即席查询。
又如,Spark SQL作为SQL on Hadoop技术的其中一种,其作用是将SQL查询语句经其自带的查询优化器翻译成Spark底层计算逻辑,以提供高效的SQL查询能力。基于SparkSQL对诸如Apache Hive等的标的产品实现计算逻辑,相比于MapReduce而言能够提高处理性能。
发明内容
但是,上述大数据计算框架无法通过在一台服务器上运行单个应用实例来为多个租户提供服务,也即,不具备多租户(Multi Tenancy/Tenant)功能。
例如,如图1A所示的HiveServer2(以下简称技术一)提供了一种基于Hive查询引擎的SQL on Hadoop多租户方案,该多租户方案对于每一个来自用户的客户端(Client)请求,HiveServer2都为该请求创建一个会话(Session),并分配一个执行上下文环境,对应于一轮MR任务。在该多租户方案中,计算层启动的执行环境与Client个数一一对应,无法重用影响效率,未能实现在一台服务器上运行单个应用实例来为多个租户提供服务的目的,故而不具有真正的多租户功能。
再如,如图1B所示的SparkThriftServer(以下简称技术二)提供了一种基于SparkSQL查询引擎的SQL On Hadoop方案,由于单个SparkThriftServer不具备多租户特性,为了能让用户访问其所对应的存储在HDFS的数据,必须为其启动单独的服务器(server),即用户User2无法实现通过User1的server来访问自己资源的目的。因此,该方案也不具备多租户特性,并且,该方案通过为特定用户预置一个server的方式而增加了系统维护的复杂度,降低了服务器资源的并发能力和资源利用率。
因此在现有技术中,往往是上述技术一和技术二混合部署的模式,但两者无法实现无缝兼容,这是非常令人烦恼的过程。
为此,非常需要一种改进的基于Spark SQL的数据处理方法,以使其通过在一台服务器上运行单个应用实例即可为多个租户提供服务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网易(杭州)网络有限公司,未经网易(杭州)网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811214789.5/2.html,转载请声明来源钻瓜专利网。