[发明专利]一种数据实时集成方法及装置在审
申请号: | 201910777794.5 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110489247A | 公开(公告)日: | 2019-11-22 |
发明(设计)人: | 谢瑶 | 申请(专利权)人: | 深圳前海环融联易信息科技服务有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54;G06F16/27;G06F16/23;G06F16/28 |
代理公司: | 44242 深圳市精英专利事务所 | 代理人: | 刘萍<国际申请>=<国际公布>=<进入国 |
地址: | 518000 广东省深圳市前海深港合作区前*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 消息中间件 数据集成 采集 集群方式 文件传输 消息传输 大数据 实时性 存储 部署 保证 | ||
本发明提供了一种数据实时集成方法,包括:从MYSQL数据库中采集BINLOG文件;将采集的BINLOG文件发送到通过消息中间件KAFKA所建立的主题中,所述消息中间件以集群方式部署;将主题中的BINLOG文件传输到大数据系统CDH的Hive部件或HBASE部件中进行数据集成。本发明的有益效果在于:能够做到数据集成完全的实时性,保证消息传输和存储的可靠性。
技术领域
本发明涉及一种数据集成方法及装置,尤其是指一种数据实时集成方法及装置。
背景技术
传统的数据集成方法是将关系型数据库MYSQL数据集成到大数据系统(如HIVE或HBASE),现有的解决方案是使用SQOOP并依赖Azkaban调度实现。这种实现方案根据设置的定时任务触发,无法做到数据集成完全的实时性。
发明内容
本发明所要解决的技术问题是:提供一种数据实时集成方法及装置,旨在将数据实时集成到大数据系统中。
为了解决上述技术问题,本发明采用的技术方案为:一种数据实时集成方法,包括以下步骤,
从MYSQL数据库中采集BINLOG文件;
将采集的BINLOG文件发送到通过消息中间件KAFKA所建立的主题中,所述消息中间件以集群方式部署;
将主题中的BINLOG文件传输到大数据系统CDH的Hive部件或HBASE部件中进行数据集成。
进一步的,在将主题中的BINLOG文件传输到大数据系统之前,需要对在消息中间件KAFKA所建立主题中的BINLOG文件解析为与大数据系统CDH的存储格式相匹配的文件。
进一步的,所述与大数据系统CDH相匹配的存储格式包括有JSON格式。
进一步的,所述数据实时集成方法还包括,以心跳的方式定时检测MYSQL数据库及消息中间件KAFKA的运行状况,当出现异常时,通过邮件或短信实时通知运维人员。
为了解决上述技术问题,本发明采用的另一个技术方案为:一种数据实时集成装置,所述数据实时集成装置包括,
数据采集模块,用于从MYSQL数据库中采集BINLOG文件;
数据发送模块,用于将采集的BINLOG文件发送到通过消息中间件KAFKA所建立的主题中,所述消息中间件以集群方式部署;
数据集成模块,用于将主题中的BINLOG文件传输到大数据系统CDH的Hive部件或HBASE部件中进行数据集成。
进一步的,在数据集成模块之前,还包括数据解析模块,用于对在消息中间件KAFKA所建立主题中的BINLOG文件解析为与大数据系统CDH的存储格式相匹配的文件。
进一步的,所述与大数据系统CDH相匹配的存储格式包括有JSON格式。
进一步的,所述数据实时集成装置还包括监控模块,用于以心跳的方式定时检测MYSQL数据库及消息中间件KAFKA的运行状况,当出现异常时,通过邮件或短信实时通知运维人员。
本发明的技术效果在于:通过将采集的BINLOG文件发送到通过消息中间件KAFKA所建立的主题中,然后传输到大数据系统CDH的Hive部件或HBASE部件中进行数据集成,能够做到数据集成完全的实时性,保证消息传输和存储的可靠性。
附图说明
下面结合附图详述本发明的具体结构。
图1为本发明一具体实施例的数据实时集成方法流程图;
图2为本发明一具体实施例的数据实时集成装置模块框图。
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳前海环融联易信息科技服务有限公司,未经深圳前海环融联易信息科技服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910777794.5/2.html,转载请声明来源钻瓜专利网。