[发明专利]一种基于策略服务实现ETL系统及其方法在审
申请号: | 202010485467.5 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111813806A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 史凯迪 | 申请(专利权)人: | 北京百卓网络技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/25 |
代理公司: | 北京集智东方知识产权代理有限公司 11578 | 代理人: | 陈亚斌;关兆辉 |
地址: | 100095 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 服务 实现 etl 系统 及其 方法 | ||
本发明提供一种基于策略服务实现ETL系统及其方法,ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:数据格式化模块;数据转化模块;数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。本发明与现有技术相比,实现统一配置化,操作化繁为简,使用方便。
技术领域
本发明属于信息处理技术领域,涉及一种基于策略服务实现ETL系统及其方法。
背景技术
目前,面对众多厂商所提供的数据信息,厂商往往会提供不同规格的数据源,对于用户在上网审计时所用的上报字段也不一样。为了支持这些厂商,其存在的问题是:现有的结构是对为每一个厂商开发一套ETL代码,每一个厂商如果标准变化,ETL都需要变更,现有结构对于不同规格的数据源无法实现统一配置化,致使操作繁琐,使用不方便。
为此,本发明提供一种基于策略服务实现ETL系统及其方法。
发明内容
鉴于现有的技术存在的上述问题,本发明的目的在于提供一种基于策略服务实现ETL系统,能够实现统一配置化,操作化繁为简,使用方便。
本发明的目的可通过下列技术方案来实现:
一种基于策略服务实现ETL系统,包括数据源模块、外部存储源模块,还包括zookeeper模块、策略服务模块、ETL装置,所述ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:
所述数据格式化模块,用于读取从数据源模块传输的主题数据,实现相应的数据文件转化一行行数据;
所述数据转化模块,用于根据数据转化策略服务模块,依据key的数据类型获取数据转化的规则并根据具体规则转化内部Map数据格式;
所述数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;
所述数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。
所述的基于策略服务实现ETL系统,其特殊之处在于:所述数据格式化模块所支持的数据包括zip格式数据,其中zip格式数据在数据格式化模块中对应有zip文件流,经过数据格式化模块解析zip格式数据的文件并转化成一行行数据。
所述的基于策略服务实现ETL系统,其特殊之处在于:所述数据格式化模块所支持的数据包括txt格式数据,其中txt格式数在据格式化模块中对应有普通文件数据,经过数据格式化模块解析txt格式数据的普通文件并转化成一行行数据。
本发明还提供一种利用如上的基于策略服务实现ETL系统的实现方法,包括数据格式化模块的实现步骤和策略服务模块的实现步骤,其中所述数据格式化模块的实现步骤具体为:
A1、依据所述策略服务模块解析获取数据格式化的转化规则;
B1、所述数据格式化模块根据格式化转化规则解析数据转化的一行行数据;
C1、完成;
所述策略服务模块的实现步骤具体为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百卓网络技术有限公司,未经北京百卓网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010485467.5/2.html,转载请声明来源钻瓜专利网。