[发明专利]一种基于Flume的数据采集与汇聚方法在审
申请号: | 201911350150.4 | 申请日: | 2019-12-24 |
公开(公告)号: | CN113032375A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 苗君;闫正洋 | 申请(专利权)人: | 广州如加网络科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/182;G06F16/17;G06F16/2458;G06F16/248 |
代理公司: | 广州渣津专利代理事务所(特殊普通合伙) 44516 | 代理人: | 曾妮;陆思宇 |
地址: | 510000 广东省广州市天河*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flume 数据 采集 汇聚 方法 | ||
本发明提供一种基于Flume的数据采集与汇聚方法,方法的步骤为:将不同格式的数据源分配至不同的采集层Flume中的source层,source层将采集到的原始数据发送给不同格式数据处理的channel层;channel层设置数据清洗规则并进行数据清洗,清洗后发送给采集层Flume的不同格式数据的sink层,sink层发送给不同格式数据的汇聚层Flume的source层;汇聚层Flume的source层获取到的数据发送给不同格式数据的汇聚层Flume的channel层;channel层将获取的汇聚数据发送至汇聚层Flume的sink层,sink层再将汇聚后的数据发送给不同的数据接收方或者由不同的接收方主动拉取汇聚层sink的数据。本发明通过把Flume分别组合为采集层和汇聚层,并通过采集层和汇聚层对应关系配置来灵活处理,实现多种数据过滤,支持接收方对多种数据接收的需求。
技术领域
本发明属于大数据技术领域,尤其涉及一种基于Flume的数据采集与汇聚方法。
背景技术
大数据技术领域中,数据是基础。数据采集与汇聚则是收集各种来源数据的主要方式和通道。不同来源的数据具有多种数据格式和编码,数据质量也参差不齐。为了获取尽可能全面、详细的数据,通常需要采集各种来源的多种数据,因此数据采集系统需要能够支撑高并发、高吞吐、高质量的数据采集服务;而使用大数据的不同平台则需要各自所需的特定业务数据,而且所需的数据格式也千差万别。因此,需要采集系统不仅能够支持多种格式数据的采集与清洗,而且能够支持多种格式的数据输出,还要能够支持灵活的线性扩容。
传统的基于Flume的数据采集技术,通常只把Flume当作一个高效的缓存模块来使用,或者当作一个多种输入数据转换为流式数据输出的模块来使用,比如Flume与SparkStreaming对接实现流式数据的实时采集与处理,Flume与Hadoop对接实现数据的分布式存储等。如图1所示,SparkStreaming和Hadoop都属于数据接收方,借助Flume的source层实现多数据源的支持;借助channel层实现多数据源数据的高效缓存;借助sink层实现不同接收方数据的输出。
传统的使用Flume的数据采集技术在实际使用过程中,通过配置多个source实现对多种数据格式的采集,通过配置多个sink实现对多接收方的输出支持。在生产环境下会遇到以下问题:
(1)出现性能瓶颈时,不便于扩容;
(2)不同格式的数据源需要不同的数据清洗规则时,不方便灵活的配置与实现;
(3)不同的数据接收方需要全量或差异化的数据时,难以实现。
发明内容
为了解决上述技术问题,本发明提供一种基于Flume的数据采集与汇聚方法,包括数据源、采集层Flume、汇聚层Flume、接收方,所述采集层Flume中包含source层、channel层以及sink层,所述汇聚层Flume中也包含source层、channel层以及sink层,所述基于Flume的数据采集与汇聚方法的步骤为:
S1:将不同格式的数据源分配至不同的独立采集层Flume中的source层,不同格式数据的source层将采集到的原始数据发送给不同格式数据处理的channel层;
S2:不同格式数据的source层与不同格式数据处理的channel层之间存在拦截器,且拦截器为不同数据源的数据设置数据清洗规则并进行数据清洗,并对清洗、过滤后的数据进行分类处理,将无效的、不符合清洗与过滤规则的数据输出到无效数据处理类channel层做丢弃处理,将符合清洗与过滤规则的有效数据输出到有效数据处理类的channel层;
S3:采集层Flume的不同格式数据处理的channel层将数据清洗后发送给 采集层Flume的不同格式数据的sink层,采集层Flume的不同格式数据的sink层获取清洗后的数据并将数据推送到一个或多个汇聚层Flume的source层;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州如加网络科技有限公司,未经广州如加网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911350150.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:OTA系统软件升级控制方法及终端设备
- 下一篇:一种盾构隧道拱顶沉降监测装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置