[发明专利]一种轻量级的大数据智能采集方法有效
申请号: | 201810754010.2 | 申请日: | 2018-07-11 |
公开(公告)号: | CN108958957B | 公开(公告)日: | 2020-03-27 |
发明(设计)人: | 于富东;匙凯;杨林 | 申请(专利权)人: | 吉林吉大通信设计院股份有限公司 |
主分类号: | G06F9/54 | 分类号: | G06F9/54 |
代理公司: | 长春市吉利专利事务所 22206 | 代理人: | 李晓莉 |
地址: | 130012 吉林省长春*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 轻量级 数据 智能 采集 方法 | ||
一种轻量级的大数据智能采集方法,属于提升数据采集性能技术领域,本发明引入动态可调整的“批量+超时”传输策略,通过将采集的数据批次进行传输,该批次策略通过条数和时间两个维度进行控制,保证了超大规模下采集客户端与缓冲队列之间不会过于频繁的建立连接通道,保证了数据不会丢失,同时减轻被采集侧生产系统压力;并且上述的条数和时间两个维度的值会受到外部调度模块的定期调整,保证到达缓冲队列的请求分布均匀,整体提高系统稳定性。
技术领域
本发明属于提升数据采集性能技术领域,特别是涉及到一种轻量级的大数据智能采集方法。
背景技术
针对大数据情况下的数据采集,源于不同技术和架构的采集方法之间的差异,会引起采集系统稳定性或占用资源量的巨大差异,所以选择一种好的采集方法十分重要。目前,对大数据情况下的数据采集方法主要为以下两种:
(1)采集客户端à存储器
在每个数据源安装采集客户端,采集客户端将需要采集的数据收集起来,传递给存储器。
(2)采集客户端à缓冲队列à存储器
在(1)技术的基础上,在采集客户端和存储器之间添加了“缓冲队列”模块。
现有技术(1)中,采集客户端将数据采集完成之后,直接发送给存储器,那么当数据规模较大的情况下,可能存储器并不能完全有能力承载采集客户端的存储请求,会发生请求消息阻塞,此时就会造成采集客户端发生错误,造成数据丢失,故技术(1)存在在大规模数据下,系统无缓冲功能带来的传输阻塞和数据丢失的缺陷;
针对现有技术(1)的基础上,引入了缓冲队列的概念,该模块实现了采集客户端和存储器之间的管道性的缓冲连接,即使存储器无法实时消费采集客户端传到的数据,那么后续数据也会被暂存在缓存队列中,待存储器压力降到正常值时,就会从缓冲队列内读取之前积压的数据,从整体上保证了系统采集的数据不丢失。
但是,当今软件应用系统体量均为大数据级别,现有技术(1)和(2)中仍存在一些问题,包括:
每次数据传输都会在采集客户端和存储之间建立一次连接通道,数据量大时候,即使采用缓冲队列,也无法承载采集客户端采集的超大规模数据传输请求在采集客户端和缓冲队列之间建立的海量连接通道,也会导致缓冲队列崩塌,数据大量丢失,同时频繁的建立连接请求也会对被采集的数据源造成巨大的大力,影响生产;
另外,缓冲队列会接收来自于大量的采集客户端的连接请求,大量的连接请求可能在近乎同一时间到达缓冲队列,此时缓冲队列的压力较大而造成系统崩塌;大量的连接请求也可能以比较分散的时间到达缓冲队列,此时缓冲队列压力则较小。不均衡的请求到达分布将极不利于系统整体稳定性。
所以技术(2)存在“超大规模下海量连接引起缓冲队列压力过载、占用被采集侧生产系统资源过高,造成生产系统崩塌风险和采集数据的丢失”的缺陷;同时存在“采集客户端到达缓冲队列的时间请求分布上的巨大偏差,导致系统整体稳定性差”的缺陷。
因此现有技术当中亟需要一种新型的技术方案来解决这一问题。
发明内容
本发明所要解决的技术问题是:提供一种轻量级的大数据智能采集方法,可以在超大规模海量连接情况下,保证数据不丢失,以及保证到达缓冲队列的请求分布均匀,整体提高系统稳定性。
一种轻量级的大数据智能采集方法,其特征是:包括以下步骤,
步骤一、建立数据存储的前置模块,内部包括批次控制器和修正控制器;建立数据存储的调度模块,包括刷新定时器和参数调节器,其中参数调节器包括配制池大小Pool_size调节器和延迟时间timeout调节器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于吉林吉大通信设计院股份有限公司,未经吉林吉大通信设计院股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810754010.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置