[发明专利]一种基于策略服务实现ETL系统及其方法在审
申请号: | 202010485467.5 | 申请日: | 2020-06-01 |
公开(公告)号: | CN111813806A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 史凯迪 | 申请(专利权)人: | 北京百卓网络技术有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455;G06F16/25 |
代理公司: | 北京集智东方知识产权代理有限公司 11578 | 代理人: | 陈亚斌;关兆辉 |
地址: | 100095 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 策略 服务 实现 etl 系统 及其 方法 | ||
1.一种基于策略服务实现ETL系统,包括数据源模块、外部存储源模块,其特征在于,还包括zookeeper模块、策略服务模块、ETL装置,所述ETL装置包括数据格式化模块、数据转化模块、数据归一化模块、数据存储模块,其中:
所述数据格式化模块,用于读取从数据源模块传输的主题数据,实现相应的数据文件转化一行行数据;
所述数据转化模块,用于根据数据转化策略服务模块,依据key的数据类型获取数据转化的规则并根据具体规则转化内部Map数据格式;
所述数据归一化模块,用于完成有共同基类的Map对象转化为java定义对象,并根据策略服务模块、数据类型获取数据归一化模块规则且利用该数据归一化模块规则将内部数据格式转化为布标统一的对象格式;
所述数据存储模块,包括Hbase数据源和ES数据源,用于根据策略服务模块定义好存储的规则并依据java对象对应Hbase表和ES表,使对象属性对应Hbase、ES的对应列值和索引字段,该数据存储模块先插入Hbase数据然后再批量插入ES数据。
2.如权利要求1所述的基于策略服务实现ETL系统,其特征在于:所述数据格式化模块所支持的数据包括zip格式数据,其中zip格式数据在数据格式化模块中对应有zip文件流,经过数据格式化模块解析zip格式数据的文件并转化成一行行数据。
3.如权利要求1所述的基于策略服务实现ETL系统,其特征在于:所述数据格式化模块所支持的数据包括txt格式数据,其中txt格式数在据格式化模块中对应有普通文件数据,经过数据格式化模块解析txt格式数据的普通文件并转化成一行行数据。
4.一种利用权利要求1-3任一项的基于策略服务实现ETL系统的实现方法,其特征在于,包括数据格式化模块的实现步骤和策略服务模块的实现步骤,其中所述数据格式化模块的实现步骤具体为:
A1、依据所述策略服务模块解析获取数据格式化的转化规则;
B1、所述数据格式化模块根据格式化转化规则解析数据转化的一行行数据;
C1、完成;
所述策略服务模块的实现步骤具体为:
A2、将规则文件上传到zookeeper模块上去,然后通过执行脚本upload-zkcj-rules.sh;
B2、利用ETL装置获取zookeeper模块中的文件流,用数据格式化模块解析规则文件且放到Map对象中的指定规则,然后将Map对象进行封装集合;
C2、ETL装置中Map数据集合广播,根据响应规则获取指定规则对象,并利用进行业务规则进行业务处理;
D2、完成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百卓网络技术有限公司,未经北京百卓网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010485467.5/1.html,转载请声明来源钻瓜专利网。