[发明专利]一种数据采集同步系统与同步方法在审

专利信息
申请号: 202110771203.0 申请日: 2021-07-08
公开(公告)号: CN113505173A 公开(公告)日: 2021-10-15
发明(设计)人: 许士松;朱坤奎 申请(专利权)人: 上海卓钢链科技有限公司
主分类号: G06F16/27 分类号: G06F16/27;G06F16/22;G06F16/215;G06F16/28
代理公司: 上海中外企专利代理事务所(特殊普通合伙) 31387 代理人: 孙益青
地址: 201306 上海市浦东*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 采集 同步 系统 方法
【说明书】:

发明公开了一种数据采集同步系统与同步方法,同步系统包含用户端、服务端,服务端内置有数据库、审核模块、采集同步模块;用户端用于生成传输至服务端的全量采集同步请求,全量采集同步请求内存储有采集数据;服务端将全量采集同步请求分别传输至数据库、审核模块;审核模块用于接收全量采集同步请求并审核并生成传输至采集同步模块、数据库、用户端的审核数据,审核数据内存储有采集数据;数据库用于接收并存储全量采集同步请求、审核数据;采集同步模块依据审核数据进行采集数据的同步;同步方法包含步骤D1‑D6。

技术领域

本发明涉及数据采集同步领域,具体涉及一种数据采集同步系统与同步方法。

背景技术

互联网的快速发展,让很多企业从线下转变到线上,同时,也让企业积累了大量的数据,这些数据大都保存在企业的各个业务系统数据库中,如果要使用这些数据,需要去这些业务数据库中将数据抽取出来,然后对数据进行加工处理,完毕之后这些数据就丢弃了,如果再次使用需要去业务数据库中再次抽取;传统的数据采集方法有很多种,例如各个数据使用方在业务低峰期直接抽取所需的各种数据,这种抽取方式简单直接,但是存在重复抽取,效率低下,且数据需要在低峰时期抽取,数据不能够实时的使用;

此外还有数据采集工具,目前比较企业中使用比较广泛的采集框架主要有针对业务数据库的采集框架Sqoop和DataX,以及针对日志文件等的采集框架有Flume、Filebeat、Logstash等;

Sqoop是Java技术栈的一款数据采集框架,依赖于MapReduce作业实现数据才加,比较耗费资源,且采集频率不能够太高,否则有可能导致业务数据库崩溃的可能,因此对于实时性要求比较高的数据采集需求就不能够满足要求了;

Datax是阿里开源的一款离线数据同步工具,能够实现各种异构数据源之间高效的数据同步功能,其本身是python技术栈,目前开源版本不支持分布式,只可以单机部署,因此在性能上就会吃亏,其次DataX也有和Sqoop同样的缺点,就是只能离线采集,无法进行高频数据采集;

这些产品将业务数据统一的抽取到数仓平台,虽然减少了重复抽取,但是sqoop和datax采集数据存在时效性差的问题,一般都是T+1日的时效性,最快也就是小时级别的采集,且抽取频率过快的话回到业务数据库瘫痪,导致生产事故的发生;

还有一种是基于时间戳或者trigger的方式获取增量数据的变更,这种方式能够较大限度的降低采集数据的数量,但是对业务的侵入性比较大,需要trigger配合,在一定程度上带来了性能损失;

Flume是针对日志文件类型的数据进行采集的一款框架,他属于hadoop生态的一个组件,依赖于hadoop生态,不能随意的部署进行数据采集,其次比较耗费资源,使用起来需要配置很多source/channel/sink三个组件,比较麻烦;

Filebeat是ELK生态系统中的一个小组件,它没有任何依赖,是一款轻量级,占用资源少,入侵性小的数据采集框架,但是正是由于是轻量级的,导致其功能相对单一,只能进行简单的文件监控采集,不支持复杂的逻辑操作;

Logstash也是ELK生态系统中的一个组件,但是他的功能相对比较强大,支持多种数据源,但是比较致命的问题就是性能和资源消耗问题,默认占用堆内存是1G;

总的来说,这些数据采集方案都不能说是比较好的,经过了解和考虑了不同数据的实现方式后,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓钢链科技有限公司,未经上海卓钢链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110771203.0/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top