[发明专利]基于Web和Kafka的分布式数据集成系统及方法有效
申请号: | 201911297173.3 | 申请日: | 2019-12-16 |
公开(公告)号: | CN111061715B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 鄂海红;宋美娜;王园 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2457;G06F16/25;G06F16/27 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 蔡丽 |
地址: | 100876 北京市海淀区西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 web kafka 分布式 数据 集成 系统 方法 | ||
1.一种基于Web和Kafka的分布式数据集成系统,其特征在于,包括:
控制台模块,用于为用户提供控制台,以对集群进行Kafka Broker管理、Kafka Topic管理、Connector管理和ETL任务管理,使得所述用户以Web页面操作的形式进行ETL任务的创建和监控;
管理服务模块,用于将Kafka、ETL Job、Connector、Configuration、Schema的操作进行API封装,以为所述控制台模块提供管理服务API;
模式管理模块,用于管理数据源端的schema和目的地端的schema及其映射;
数据抽取模块,用于将所述管理数据源端的数据抽取数据到消息队列;
数据处理模块,用于对所述数据进行清洗和转换;以及
数据加载模块,用于将所述数据从所述消息队列加载到目的地。
2.根据权利要求1所述的系统,其特征在于,所述控制台模块进一步用于:
在Kafka Broker管理页面配置Kafka集群信息;
在所述Kafka Topic管理页面创建数据源端和目的端的Kafka主题;
选择或创建一个源端数据连接器;
选择或创建数据处理程序;
选择或创建一个目的端数据连接器。
3.根据权利要求1所述的系统,其特征在于,所述管理服务模块进一步用于提供对KafkaBroker和Topic管理的服务API,提供ETL Job的基本信息查看和状态监控,提供对Connector管理的服务API,管理Kafka集群、Connector的配置,提供数据源的Schema管理服务,以管理ETLJob中SourceTask、ProcessTask和SinTask的生命周期。
4.根据权利要求1所述的系统,其特征在于,所述模式管理模块进一步用于通过SchemaRegistry注册数据源端和目的端的schema,并在数据库中存储二者的对应关系。
5.根据权利要求1所述的系统,其特征在于,所述数据抽取模块进一步用于从数据源周期性或者持续性地获取所述数据,并发送到所述数据处理模块,并将schema信息注册到Schema Registry。
6.根据权利要求5所述的系统,其特征在于,所述数据处理模块进一步用于基于KafkaStreams实现,其中,ETL任务进程从Kafka消费待处理主题数据,并进行清洗、转换处理后将数据发送回Kafka。
7.根据权利要求6所述的系统,其特征在于,所述数据加载模块进一步用于从所述Schema Registry读取源端schema,将字节类型的Kafka消息进行反序列化,获得Avro类型的Record,并从系统数据库读取目的端schema和源端schema的映射关系,封装成目的端的记录写入目的存储系统。
8.一种基于Web和Kafka的分布式数据集成方法,其特征在于,包括以下步骤:
为用户提供控制台,以对集群进行Kafka Broker管理、Kafka Topic管理、Connector管理和ETL任务管理,使得所述用户以Web页面操作的形式进行ETL任务的创建和监控;
将Kafka、ETL Job、Connector、Configuration、Schema的操作进行API封装,以提供管理服务API;
管理数据源端的schema和目的地端的schema及其映射;
将所述管理数据源端的数据抽取数据到消息队列;
对所述数据进行清洗和转换;以及
将所述数据从所述消息队列加载到目的地。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911297173.3/1.html,转载请声明来源钻瓜专利网。