[发明专利]一种分布式ETL一体机系统在审
申请号: | 201410774178.1 | 申请日: | 2014-12-16 |
公开(公告)号: | CN104391989A | 公开(公告)日: | 2015-03-04 |
发明(设计)人: | 刘伟;辛国茂;金洪殿;亓开元;房体盈;曹连超;卢军佐 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F1/16 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 etl 一体机 系统 | ||
技术领域
本发明涉及计算机技术领域,具体地说是一种实用性强、分布式ETL一体机系统。
背景技术
人类社会当前已经全面进入信息时代,信息时代产生的数据逐年呈现指数级别地增长,由于传统技术的限制,大量的数据沉睡在存储介质中。近几年来,随着Hadoop、Spark等大数据处理技术的发展,数据已经引起人们重视,成为与水、石油同等重要的战略资源。当前大量数据主要存储在传统的SQL数据库中,与大数据技术使用的NoSQL数据库有很大的不同,同时由于数据的多样性特点,使用大数据平台处理数据前,需要把数据导入大数据平台自己的存储系统,且在导入时一般需要进行ETL处理,完成各类数据的抽取,清洗,装载等过程。
传统ETL系统主要运行的单机上,也有分布式ETL处理,但主要是面向多任务场景。这些传统的ETL系统功能已经发展的较为完善,但是在应对大数据量的场景时,在处理速度上难以满足处理需求,功能对接上存在很多偏差。
随着大数据时代的即将到来,数据会进一步膨胀,面向大数据平台的ETL处理需求将越来越多,数据量越来越大,处理时效要求越来越迫切,最终会导致传统的ETL处理方式难堪重负。所以,专为大数据设计的,高效能数据处理,大吞吐量,功能完备的ETL处理一体化平台将成为大数据时代的一种新的需求。
基于此,现提供一种面向大数据的分布式ETL一体机系统设计,以满足大数据时代的ETL处理需求。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、分布式ETL一体机系统。
一种分布式ETL一体机系统,其具体实现过程为:
设置分布式ETL一体机硬件系统,该硬件系统包括服务器集群,使用多台适合大数据传输和存储处理的服务器,构建高效能的ETL处理硬件平台;上述硬件系统的集群使用主-从式结构,即整个集群包括一个主节点、若干从节点;
设置集群智能管理引擎作为硬件层和ETL业务系统中间的接口,为ETL业务提供所有的支撑服务,该集群智能管理引擎还作为硬件集群的上层管理者,统一管理集群的内存、硬盘、网络硬件资源,同时负责节点扩展、双机热备、备用主节点选择、集群监控的功能;
在主节点内设置分布式ETL管理中心,该分布式ETL管理中心由主节点执行ETL任务的协同、负载均衡,数据引擎管理,任务管理;并配合集群智能管理引擎完成相关数据的同步;
设置ETL业务逻辑,即通过各节点接收分布式ETL管理中心分配的任务,协同完成任务的ETL业务处理,该业务处理包括数据抽取,数据清洗、转换,数据装载,数据回流,系统分析,质量管理ETL系统功能;
设置ETL任务管理,提供图形化任务设计,即使用可视化的ETL任务设计,设计的元数据存储在任务元数据库中;
设置数据引擎,管理各类数据源连接驱动;为ETL系统本身的各类元数据存储提供数据库统一存储接口;完成分布式数据存储统一管理;
设置数据存储,提供业务数据存储、用户数据缓存功能,该数据存储使用分布式内存存储和高速硬盘存储;
设置主从Client-Server数据传输,在数据源端使用Client获得源数据,然后连接分布式ETL系统的Server端口,完成数据汇聚收集;
设置配置管理模块,即提供可交互的WEB UI界面,对集群进行统一配置管理和用户管理;
设置日志模块,该日志模块将集群生成的各类日志,汇入日志模块进行统一管理,并提供日志的统计分析。
所述硬件系统的集群在从节点中选择一个节点作为备用主节点,该备用主节点及时同步主节点的各类管理配置信息,进行热备;当主节点出现故障脱离集群后,备用主节点切换为主节点角色,接替主节点管理整个集群的ETL任务,同时从剩余从节点中选择一个节点作为备用主节点;
所述集群各节点配置8G以上的大容量内存,直接在内存中进行ETL业务过程和数据存储;同时配备500G以上的大容量高速硬盘,作为数据缓存池,以适应超大量数据的存储;集群内部使用万兆级以上链路进行连接,保证内部数据交换速度,同时各节点配置多条网络链路,由主节点统一管理,可并行汇聚同一数据源的数据;
所述集群智能管理引擎为上层ETL节点提供以下服务:提供资源调度策略;提供分布式通信与协调接口;集群资源监控。
所述分布式ETL管理中心通过主节点执行实现其功能,其功能及实现过程包括:
ETL任务调度,对各个用户提交的任务,按照预定策略进行统一调度执行;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410774178.1/2.html,转载请声明来源钻瓜专利网。