[发明专利]一种面向安全监测业务分析的ETL框架设计方法有效
申请号: | 201510363351.3 | 申请日: | 2015-06-26 |
公开(公告)号: | CN104933160B | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 毛莺池;贾必聪;艾永平;易魁;许峰;肖海斌;周晓峰;王龙宝;邱小弟;卢吉;陈豪;李然;周健;李洪波;张鹏 | 申请(专利权)人: | 河海大学;华能澜沧江水电股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/21 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李玉平 |
地址: | 211100 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种面向安全监测业务分析的ETL框架设计方法,包括数据抽取、数据转换和数据加载。数据抽取是指从多个异构数据源中获取源数据,通过使用XML适配器确认数据源和使用时间戳进行增量抽取完成;数据转换过程是连接数据抽取过程与数据加载过程的纽带,在该过程中使用“数据处理引擎”和“Redis存储引擎”两个组件进行数据转换;数据加载中,数据的加载主要为最初加载和增量装载两种装载类型,最初加载主要利用“批量加载引擎”进行处理,增量装载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理。本发明可以实现异构数据的高度统一,为后续的决策支持工作打下基础。 | ||
搜索关键词: | 一种 面向 安全 监测 业务 分析 etl 框架 设计 方法 | ||
【主权项】:
1.一种面向安全监测业务分析的ETL框架设计方法,其特征在于,包括数据抽取、数据转换和数据加载,具体为:(1)数据抽取:使用XML适配器确认数据源;XML适配器采用XML配置文件的方式,确认数据源和数据仓库两方面的连接信息,并检查和确定数据源是否可以提供数据仓库需要的数据;使用增量抽取技术引擎进行数据抽取;XML适配器采用XML配置文件的方式,在connectConfig文件中对数据源及数据仓库进行了配置,每个<connectConfig>标签适配于一个数据源,该标签下的所有子标签为数据源的连接属性,特别的,<key>标签为数据源对应信息标示位,它表明一组对应的数据源与数据仓库信息;通过该XML配置文件,适配多组数据源与数据仓库信息;在tableConfig文件中对数据源及数据仓库的字段对应信息进行了配置,每个<table>标签适配于一组表层面的对应信息,其中sourceTable代表源数据源的数据库表名,targetTable代表目标数据源中的数据库表名,sourceDef这个配置项用于支持分表操作,作用是指明目标表是由原表的何种分类策略进行数据转换;<property>标签用于源表与目标表的字段对应,其中property对应于目标表中的字段,column对应于源表中的字段,而default属性能指定目标表字段的默认值,timestamp属性指明表的时间戳,此属性对数据抽取过程中增量抽取的顺利实施影响重大;XML适配器适用于传统的关系型数据库,通过该适配器能解决大部分的业务系统数据迁移问题;(2)数据转换:通过数据处理引擎和Redis存储引擎两个组件实现,数据处理引擎通过数据转换算法家族来分配具体的数据处理策略;(3)数据加载:主要为最初加载和增量加载两种装载类型;最初加载主要利用“批量加载引擎”进行处理;增量加载则使用“批量加载引擎”和“实时加载引擎”结合的方式进行处理;使用增量抽取技术引擎进行数据抽取,在Storm平台的Spout组件中,利用守护进程nextTuple()方法,定时利用时间戳将源数据与数据仓库数据进行对比,若有增量数据,则能通过nextTuple()方法进行处理后提交给后续组件进行执行,从而完成增量数据抽取的工作;对于ETL框架中的业务系统数据源数据,根据大坝安全监测数据的特点,数据记录的时间戳属性均被设计为数据表的主键。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学;华能澜沧江水电股份有限公司,未经河海大学;华能澜沧江水电股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510363351.3/,转载请声明来源钻瓜专利网。