[发明专利]一种面向安全监测业务分析的ETL框架设计方法有效
申请号: | 201510363351.3 | 申请日: | 2015-06-26 |
公开(公告)号: | CN104933160B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 毛莺池;贾必聪;艾永平;易魁;许峰;肖海斌;周晓峰;王龙宝;邱小弟;卢吉;陈豪;李然;周健;李洪波;张鹏 | 申请(专利权)人: | 河海大学;华能澜沧江水电股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/21 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 安全 监测 业务 分析 etl 框架 设计 方法 | ||
本发明公开了一种面向安全监测业务分析的ETL框架设计方法,包括数据抽取、数据转换和数据加载。数据抽取是指从多个异构数据源中获取源数据,通过使用XML适配器确认数据源和使用时间戳进行增量抽取完成;数据转换过程是连接数据抽取过程与数据加载过程的纽带,在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换;数据加载中,数据的加载主要为最初加载和增量装载两种装载类型,最初加载主要利用“批量加载引擎”进行处理,增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。本发明可以实现异构数据的高度统一,为后续的决策支持工作打下基础。
技术领域
本发明涉及一种面向安全监测业务分析的ETL框架设计方法,具体涉及一种面向大坝工程安全监测领域中安全监测业务分析的数据抽取-转换-加载框架的设计,实现对安全监测异构数据的高度统一。
背景技术
大坝是我国国民经济建设及社会发展的重要基础设施,提高对大坝的安全认识和管理水平,对发挥大坝的作用具有重大意义。为保证大坝在筹备期、建设期及运行期各个阶段的坝体安全,根据坝型、地质条件的不同,一般的大坝安全监测体系设置有大坝强震监测系统、水库水情测报系统、应力应变监测系统及坝内温度裂缝专项监测等。
由于大坝安全的监测项目繁多且大多互相影响,现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大,收效小,采用系统数据整合的方式无疑更加合理。
数据的集中存储并不是大坝安全监测数据整合的最终目的,实现异构数据的高度统一才能为后续的决策支持工作打下夯实的基础。数据仓库技术可以保证数据的准确性、一致性、易用性和综合性,为各类决策系统提供安全统一的数据源。利用数据仓库的特性,可以高效的进行数据挖掘(DM)、联机分析(OLAP)等后续工作。在大坝安全监测领域,建立基于异构数据源的数据仓库已迫在眉睫。
因此,如何解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题,在分析大坝安全领域实际产生数据的结构的基础上,是面向安全监测业务分析必须解决的问题,也是本发明所要解决的问题。
发明内容
发明目的:为了解决传统的ETL框架处理该类业务数据时存在的并发限制和可扩展性等问题。由于大坝安全的监测项目繁多且大多互相影响,现阶段大坝安全监测面临多套安全监测系统进行整理与集成的迫切需求。考虑到系统直接整合难度大,收效小,采用系统数据整合的方式无疑更加合理。如何实现对安全监测异构数据的高度统一,本发明给出一种面向安全监测业务分析的ETL框架设计方法解决此问题。
技术方案:一种面向安全监测业务分析的ETL框架设计方法,包括:
(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据。使用增量抽取技术引擎进行数据抽取;在Storm平台的Spout组件中,利用守护进程nextTuple()方法,可以定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则可通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作。
(2)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法。其中,最常用的算法策略为选择过滤算法和分离/合并算法。Redis存储引擎可用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息可以并行的进行处理,当每个设备的记录缓存到一定数据量后,可以将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也可以继续缓存到Redis缓存引擎中,通过这种机制,在数据转换中,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即可进行大量的数据转换计算任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;华能澜沧江水电股份有限公司,未经河海大学;华能澜沧江水电股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510363351.3/2.html,转载请声明来源钻瓜专利网。