[发明专利]基于Flume快速分区传输数据的方法以及装置在审
申请号: | 201910992613.0 | 申请日: | 2019-10-17 |
公开(公告)号: | CN110825711A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 徐涛;吴峰;郭伟 | 申请(专利权)人: | 上海易点时空网络有限公司 |
主分类号: | G06F16/18 | 分类号: | G06F16/18;G06F16/182;G06F16/17;G06F16/16 |
代理公司: | 北京卓唐知识产权代理有限公司 11541 | 代理人: | 唐海力 |
地址: | 200125 上海市浦东*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 flume 快速 分区 传输 数据 方法 以及 装置 | ||
本申请公开了一种基于Flume快速分区传输数据的方法以及装置。该方法包括接收业务上报数据,其中所述业务上报数据至少包括一种的业务类型;根据所述业务类型将接收到的业务上报数据记录到对应的日志文件中;监听所述日志文件目录是否发生变化;当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录。本申请解决了基于Flume传输数据时数据传输速度较慢的技术问题。通过本申请不需要再配置正则表达式,可以提高数据传输速度。
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于Flume快速分区传输数据的方法以及装置。
背景技术
Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据。
发明人发现,当需要利用Flume将业务数据传输至hadoop的分布式文件系统中,对于不同类型的业务数据,需要分区保存在分布式文件系统的不同目录。通常地采用配置正则表达式的方式,则需要解析文件内容提取分区类型字段,造成数据传输速度较慢。
针对相关技术中基于Flume传输数据时数据传输速度较慢的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种基于Flume快速分区传输数据的方法以及装置,以解决基于Flume传输数据时数据传输速度较慢的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种基于Flume快速分区传输数据的方法。
根据本申请的基于Flume快速分区传输数据的方法包括:接收业务上报数据,其中所述业务上报数据至少包括一种的业务类型;根据所述业务类型将接收到的业务上报数据记录到对应的日志文件中;监听所述日志文件目录是否发生变化;当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录。
进一步地,当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录包括:
解析所述日志文件目录中的文件名前缀得到数据类型;
采用文件名前缀设置文件名变量,根据所述文件名变量配置分布式文件系统的目录的文件名。
进一步地,当所述日志文件目录发生变化,则将文件发送至分布式文件系统的文件目录包括:
解析所述日志文件目录中的文件名前缀得到数据类型;
所述日志文件根据文件前缀名基于Flume分别传输至分布式文件系统的对应目录中。
进一步地,监听日志文件目录是否发生变化包括:
配置Flume使用Spooling Directory Source监听日志文件目录是否发生变化。
为了实现上述目的,根据本申请的另一方面,提供了一种基于Flume快速分区传输数据的方法,包括:生成业务数据,其中所述业务上报数据至少包括一种的业务类型;将所述业务数据上报,并按照所述业务类型将上报的所述业务数据记录到对应的日志文件中;如果日志文件目录发生变化,则将文件上报至分布式文件系统的文件目录。
为了实现上述目的,根据本申请的又一方面,提供了一种基于Flume快速分区传输数据的装置。
根据本申请的基于Flume快速分区传输数据的装置包括:接收模块,用于接收业务上报数据,其中所述业务上报数据至少包括一种的业务类型;记录模块,用于根据所述业务类型将接收到的业务上报数据记录到对应的日志文件中;监听模块,用于监听日志文件目录是否发生变化;发送模块,用于当所述日志文件目录发生变化时,将文件发送至分布式文件系统的文件目录。
进一步地,所述发送模块,用于
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海易点时空网络有限公司,未经上海易点时空网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910992613.0/2.html,转载请声明来源钻瓜专利网。