[发明专利]一种自适应低延迟内存计算引擎的数据分析方法有效
申请号: | 202010548158.8 | 申请日: | 2020-06-16 |
公开(公告)号: | CN111736907B | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 陈琳;崔岭峰;黄杰 | 申请(专利权)人: | 湖南省星岳天璇科技有限公司 |
主分类号: | G06F9/4401 | 分类号: | G06F9/4401;G06F9/50;G06F11/30;G06F16/242;G06F16/25 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 周长清;邹大坚 |
地址: | 410205 湖南省长沙市高新开发区*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 延迟 内存 计算 引擎 数据 分析 方法 | ||
本发明公开了一种自适应低延迟内存计算引擎的数据分析方法,步骤包括:步骤S1:定义Spark服务启动相关的参数;步骤S2:在数据平台上集成一次启动处理过程;在首次启动时,向Hadoop集群提交Spark任务运行请求,申请硬件资源容器;向Spark内部注册进度监听器HKSparkListener;启动内部网络服务端用于接收通过JDBC接口提交的SQL查询请求及控制命令的处理;启动JDBC接口解析器负责解析所有的SQL语句;向JVM注册关机钩子负责JVM退出时的清理工作,至此启动结束;步骤S3:在进行SQL通信请求时,大数据平台上集成的Spark驱动客户端通过JDBC接口发起SQL查询请求;步骤S4:当收到Spark驱动客户端的停止控制命令时,停止Spark的容器进程。本发明具有原理简单、适用范围广、授权管理保密性更好的等优点。
技术领域
本发明主要涉及到大数据分析内存计算引擎性能优化技术领域,特指一种自适应低延迟内存计算引擎的数据分析方法。
背景技术
当前,MapReduce编程模型已经成为主流的分布式编程模型,它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。但是MapReduce也存在一些缺陷,如高延迟、不支持DAG模型、Map与Reduce的中间数据落地等。因此在近两年,出现了优化改进MapReduce的项目,如交互查询引擎Impala、支持DAG的TEZ、支持内存计算Spark等。Spark相对与MapReduce的优势有:低延迟、支持DAG和分布式内存计算。Spark在内存中对数据进行迭代计算如果数据由内存读取是hadoop MapReduce的100倍。Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,会消耗较多的启动时间。
当前Hadoop项目平台中Spark使用方法主要有以下几种:
(1)基于Spark-api开放的API脚本直接采用linux-shell的脚本调用方法,存在的问题是使用起来很不灵活,不能动态传入参数,不能实现自动化集成。
(2)基于Azkaban等开源的大数据调度平台实现对Spark-api开放的API脚本的集成方法,存在问题是azkaban代码框架组织不好,不方便扩展、集成新功能。
(3)基于大数据集成平台集成Native本地调用的方式调用Spark-api开放的API脚本。
以上三种方法都存在的问题是:采用Spark原生实现的底层,如jvm垃圾回收算法。数据压缩算法性能较差,Spark内部的进度信息只能在自带的监控展示页面上看到,不方便集成到公司内部的系统中,实时性不高。单次任务启动耗时很高,一般在40秒到一分钟之内(视分配给Spark进程的CPU核心及内存等硬件资源参数而定),这些往往为了限制大数据量任务的整体执行速度,消耗较多的启动时间。
发明内容
本发明要解决的技术问题就在于:针对现有技术存在的技术问题,本发明提供一种原理简单、易实现、适用范围广、授权管理保密性更好的自适应低延迟内存计算引擎的数据分析方法。
为解决上述技术问题,本发明采用以下技术方案:
一种自适应低延迟内存计算引擎的数据分析方法,其步骤包括:
步骤S1:定义Spark服务启动相关的参数;
步骤S2:在数据平台上集成一次启动处理过程;即,在首次启动时,向Hadoop集群提交Spark任务运行请求,申请硬件资源容器;向Spark内部注册进度监听器HKSparkListener;启动内部网络服务端用于接收通过JDBC接口提交的SQL查询请求及控制命令的处理;启动JDBC接口解析器负责解析所有的SQL语句;向JVM注册关机钩子负责JVM退出时的清理工作,至此该程序启动结束;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南省星岳天璇科技有限公司,未经湖南省星岳天璇科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010548158.8/2.html,转载请声明来源钻瓜专利网。