[发明专利]一种数据采集同步系统与同步方法在审
申请号: | 202110771203.0 | 申请日: | 2021-07-08 |
公开(公告)号: | CN113505173A | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 许士松;朱坤奎 | 申请(专利权)人: | 上海卓钢链科技有限公司 |
主分类号: | G06F16/27 | 分类号: | G06F16/27;G06F16/22;G06F16/215;G06F16/28 |
代理公司: | 上海中外企专利代理事务所(特殊普通合伙) 31387 | 代理人: | 孙益青 |
地址: | 201306 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 采集 同步 系统 方法 | ||
本发明公开了一种数据采集同步系统与同步方法,同步系统包含用户端、服务端,服务端内置有数据库、审核模块、采集同步模块;用户端用于生成传输至服务端的全量采集同步请求,全量采集同步请求内存储有采集数据;服务端将全量采集同步请求分别传输至数据库、审核模块;审核模块用于接收全量采集同步请求并审核并生成传输至采集同步模块、数据库、用户端的审核数据,审核数据内存储有采集数据;数据库用于接收并存储全量采集同步请求、审核数据;采集同步模块依据审核数据进行采集数据的同步;同步方法包含步骤D1‑D6。
技术领域
本发明涉及数据采集同步领域,具体涉及一种数据采集同步系统与同步方法。
背景技术
互联网的快速发展,让很多企业从线下转变到线上,同时,也让企业积累了大量的数据,这些数据大都保存在企业的各个业务系统数据库中,如果要使用这些数据,需要去这些业务数据库中将数据抽取出来,然后对数据进行加工处理,完毕之后这些数据就丢弃了,如果再次使用需要去业务数据库中再次抽取;传统的数据采集方法有很多种,例如各个数据使用方在业务低峰期直接抽取所需的各种数据,这种抽取方式简单直接,但是存在重复抽取,效率低下,且数据需要在低峰时期抽取,数据不能够实时的使用;
此外还有数据采集工具,目前比较企业中使用比较广泛的采集框架主要有针对业务数据库的采集框架Sqoop和DataX,以及针对日志文件等的采集框架有Flume、Filebeat、Logstash等;
Sqoop是Java技术栈的一款数据采集框架,依赖于MapReduce作业实现数据才加,比较耗费资源,且采集频率不能够太高,否则有可能导致业务数据库崩溃的可能,因此对于实时性要求比较高的数据采集需求就不能够满足要求了;
Datax是阿里开源的一款离线数据同步工具,能够实现各种异构数据源之间高效的数据同步功能,其本身是python技术栈,目前开源版本不支持分布式,只可以单机部署,因此在性能上就会吃亏,其次DataX也有和Sqoop同样的缺点,就是只能离线采集,无法进行高频数据采集;
这些产品将业务数据统一的抽取到数仓平台,虽然减少了重复抽取,但是sqoop和datax采集数据存在时效性差的问题,一般都是T+1日的时效性,最快也就是小时级别的采集,且抽取频率过快的话回到业务数据库瘫痪,导致生产事故的发生;
还有一种是基于时间戳或者trigger的方式获取增量数据的变更,这种方式能够较大限度的降低采集数据的数量,但是对业务的侵入性比较大,需要trigger配合,在一定程度上带来了性能损失;
Flume是针对日志文件类型的数据进行采集的一款框架,他属于hadoop生态的一个组件,依赖于hadoop生态,不能随意的部署进行数据采集,其次比较耗费资源,使用起来需要配置很多source/channel/sink三个组件,比较麻烦;
Filebeat是ELK生态系统中的一个小组件,它没有任何依赖,是一款轻量级,占用资源少,入侵性小的数据采集框架,但是正是由于是轻量级的,导致其功能相对单一,只能进行简单的文件监控采集,不支持复杂的逻辑操作;
Logstash也是ELK生态系统中的一个组件,但是他的功能相对比较强大,支持多种数据源,但是比较致命的问题就是性能和资源消耗问题,默认占用堆内存是1G;
总的来说,这些数据采集方案都不能说是比较好的,经过了解和考虑了不同数据的实现方式后,要想同时解决数据一致性和实时性,比较合理的方法应该是基于日志的解决方案,同时能够提供消息订阅的方式给下游系统使用。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海卓钢链科技有限公司,未经上海卓钢链科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110771203.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种提升传输线瞬态仿真收敛性的方法
- 下一篇:一种宠物饲料及其加工工艺
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置