[发明专利]一种面向安全监测业务分析的ETL框架设计方法有效
申请号: | 201510363351.3 | 申请日: | 2015-06-26 |
公开(公告)号: | CN104933160B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 毛莺池;贾必聪;艾永平;易魁;许峰;肖海斌;周晓峰;王龙宝;邱小弟;卢吉;陈豪;李然;周健;李洪波;张鹏 | 申请(专利权)人: | 河海大学;华能澜沧江水电股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/21 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 安全 监测 业务 分析 etl 框架 设计 方法 | ||
1.一种面向安全监测业务分析的ETL框架设计方法,其特征在于,包括数据抽取、数据转换和数据加载,具体为:
(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据;使用增量抽取技术引擎进行数据抽取;
XML适配器采用XML配置文件的方式,在connectConfig文件中对数据源及数据仓库进行了配置,每个<connectConfig>标签适配于一个数据源,该标签下的所有子标签为数据源的连接属性,特别的,<key>标签为数据源对应信息标示位,它表明一组对应的数据源与数据仓库信息;通过该XML配置文件,适配多组数据源与数据仓库信息;
在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置,每个<table>标签适配于一组表层面的对应信息,其中sourceTable代表源数据源的数据库表名,targetTable代表目标数据源中的数据库表名,sourceDef这个配置项用于支持分表操作,作用是指明目标表是由原表的何种分类策略进行数据转换;<property>标签用于源表与目标表的字段对应,其中property对应于目标表中的字段,column对应于源表中的字段,而default属性能指定目标表字段的默认值,timestamp属性指明表的时间戳,此属性对数据抽取过程中增量抽取的顺利实施影响重大;XML适配器适用于传统的关系型数据库,通过该适配器能解决大部分的业务系统数据迁移问题;
(2)数据转换:通过数据处理引擎和Redis存储引擎两个组件实现,数据处理引擎通过数据转换算法家族来分配具体的数据处理策略;
(3)数据加载:主要为最初加载和增量加载两种装载类型;最初加载主要利用“批量加载引擎”进行处理;增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理;
使用增量抽取技术引擎进行数据抽取,在Storm平台的Spout组件中,利用守护进程nextTuple()方法,定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则能通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作;
对于ETL框架中的业务系统数据源数据,根据大坝安全监测数据的特点,数据记录的时间戳属性均被设计为数据表的主键。
2.如权利要求1所述的面向安全监测业务分析的ETL框架设计方法,其特征在于:
(2.1)数据处理引擎通过数据转换算法家族来分配具体的数据处理策略,包括:1、选择过滤算法;2、分离/合并算法;3、排序算法;4、汇总算法;5、公式计算算法;6、字段转换算法;
(2.2)Redis存储引擎用于缓存多个设备的临时记录信息,通过Storm平台的分布式并发特性,多个设备信息能并行的进行处理,当每个设备的记录缓存到一定数据量后,将这些数据提交给数据处理引擎进行处理,数据处理引擎处理后的中间结果也能继续缓存到Redis缓存引擎中,通过这种机制,在数据转换模块,在不涉及到数据仓库相关数据的情况下,仅从数据源数据出发,不借助于任何数据仓库相关的关系型数据存储设备,即进行大量的数据转换计算任务。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;华能澜沧江水电股份有限公司,未经河海大学;华能澜沧江水电股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510363351.3/1.html,转载请声明来源钻瓜专利网。