[发明专利]一种基于Flume的数据采集与汇聚方法在审

专利信息
申请号: 201911350150.4 申请日: 2019-12-24
公开(公告)号: CN113032375A 公开(公告)日: 2021-06-25
发明(设计)人: 苗君;闫正洋 申请(专利权)人: 广州如加网络科技有限公司
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/182;G06F16/17;G06F16/2458;G06F16/248
代理公司: 广州渣津专利代理事务所(特殊普通合伙) 44516 代理人: 曾妮;陆思宇
地址: 510000 广东省广州市天河*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 flume 数据 采集 汇聚 方法
【说明书】:

发明提供一种基于Flume的数据采集与汇聚方法,方法的步骤为:将不同格式的数据源分配至不同的采集层Flume中的source层,source层将采集到的原始数据发送给不同格式数据处理的channel层;channel层设置数据清洗规则并进行数据清洗,清洗后发送给采集层Flume的不同格式数据的sink层,sink层发送给不同格式数据的汇聚层Flume的source层;汇聚层Flume的source层获取到的数据发送给不同格式数据的汇聚层Flume的channel层;channel层将获取的汇聚数据发送至汇聚层Flume的sink层,sink层再将汇聚后的数据发送给不同的数据接收方或者由不同的接收方主动拉取汇聚层sink的数据。本发明通过把Flume分别组合为采集层和汇聚层,并通过采集层和汇聚层对应关系配置来灵活处理,实现多种数据过滤,支持接收方对多种数据接收的需求。

技术领域

本发明属于大数据技术领域,尤其涉及一种基于Flume的数据采集与汇聚方法。

背景技术

大数据技术领域中,数据是基础。数据采集与汇聚则是收集各种来源数据的主要方式和通道。不同来源的数据具有多种数据格式和编码,数据质量也参差不齐。为了获取尽可能全面、详细的数据,通常需要采集各种来源的多种数据,因此数据采集系统需要能够支撑高并发、高吞吐、高质量的数据采集服务;而使用大数据的不同平台则需要各自所需的特定业务数据,而且所需的数据格式也千差万别。因此,需要采集系统不仅能够支持多种格式数据的采集与清洗,而且能够支持多种格式的数据输出,还要能够支持灵活的线性扩容。

传统的基于Flume的数据采集技术,通常只把Flume当作一个高效的缓存模块来使用,或者当作一个多种输入数据转换为流式数据输出的模块来使用,比如Flume与SparkStreaming对接实现流式数据的实时采集与处理,Flume与Hadoop对接实现数据的分布式存储等。如图1所示,SparkStreaming和Hadoop都属于数据接收方,借助Flume的source层实现多数据源的支持;借助channel层实现多数据源数据的高效缓存;借助sink层实现不同接收方数据的输出。

传统的使用Flume的数据采集技术在实际使用过程中,通过配置多个source实现对多种数据格式的采集,通过配置多个sink实现对多接收方的输出支持。在生产环境下会遇到以下问题:

(1)出现性能瓶颈时,不便于扩容;

(2)不同格式的数据源需要不同的数据清洗规则时,不方便灵活的配置与实现;

(3)不同的数据接收方需要全量或差异化的数据时,难以实现。

发明内容

为了解决上述技术问题,本发明提供一种基于Flume的数据采集与汇聚方法,包括数据源、采集层Flume、汇聚层Flume、接收方,所述采集层Flume中包含source层、channel层以及sink层,所述汇聚层Flume中也包含source层、channel层以及sink层,所述基于Flume的数据采集与汇聚方法的步骤为:

S1:将不同格式的数据源分配至不同的独立采集层Flume中的source层,不同格式数据的source层将采集到的原始数据发送给不同格式数据处理的channel层;

S2:不同格式数据的source层与不同格式数据处理的channel层之间存在拦截器,且拦截器为不同数据源的数据设置数据清洗规则并进行数据清洗,并对清洗、过滤后的数据进行分类处理,将无效的、不符合清洗与过滤规则的数据输出到无效数据处理类channel层做丢弃处理,将符合清洗与过滤规则的有效数据输出到有效数据处理类的channel层;

S3:采集层Flume的不同格式数据处理的channel层将数据清洗后发送给 采集层Flume的不同格式数据的sink层,采集层Flume的不同格式数据的sink层获取清洗后的数据并将数据推送到一个或多个汇聚层Flume的source层;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州如加网络科技有限公司,未经广州如加网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911350150.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top