[发明专利]一种数据处理方法、装置及设备在审

专利信息
申请号: 202111318769.4 申请日: 2021-11-09
公开(公告)号: CN116107970A 公开(公告)日: 2023-05-12
发明(设计)人: 蔺东东 申请(专利权)人: 中国移动通信有限公司研究院;中国移动通信集团有限公司
主分类号: G06F16/16 分类号: G06F16/16;G06F16/172
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 李清风
地址: 100053 北*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据处理 方法 装置 设备
【说明书】:

发明提供了一种数据处理方法、装置及设备,将获取的流文件FlowFile中的元数据metadata拆分为一个或多个记录Record;从一个或多个Record中获取待处理的Record,对待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分。通过将FlowFile分割为一个或多个Record,并将这些Record的信息存储在FlowFile的metadata部分,是存储在内存中的,后续对这些Record进行过滤、转换和计算就能够基于这些记录Record进行操作,而无需对整个的FlowFile进行操作,减少了对于FlowFile的多次读写。

技术领域

本发明涉及数据采集技术领域,特别是指一种数据处理方法、装置及设备。

背景技术

数据处理和分发系统(Apache NiFi,以下简称NiFi)是一款功能非常强大的实现数据采集、数据清洗,将数据从来源端经过抽取、转换并加载至目的端(ETL,Extract-Transform-Load)的开源的工具。NiFi支持图形化操作,对流程设计人员友好;内置200多个处理器(Processor),满足大部分数据采集和清洗的需求;支持数据流的全链路追踪,实时查看数据流向;支持单机、集群、docker等灵活部署,适用于多种使用环境。鉴于NiFi有这么多优势特性,所以在生产环境的ETL场景中得到了广泛的使用。

NiFi在进行数据处理的时候,处理的对象是流文件(FlowFile)。如图1所示,一个FlowFile包含两部分内容:元数据(metadata)和业务数据(data)。其中,metadata主要包含了FlowFile的属性,如唯一标识符、名称、大小和其他一些自定义属性;data是这个FlowFile包含的ETL数据。metadata保存在内存中,可以修改。业务数据不可修改,指向一个本地文件系统的真实文件

在相关技术中,整个ETL流程处理的对象都是FlowFile。由于需要多个Processor对数据进行多次处理,所以导致要多次读取FlowFile,并生成新的FlowFile,导致整个ETL流程的处理速度很慢,无法高性能地处理大量的数据。随着数据接入数量越来越大,这种“整存整取”的处理方式的劣势越来越凸显出来。

发明内容

本发明要解决的技术问题是提供一种数据处理方法、装置及设备,解决如何减少新的FlowFile产生,以及减少FlowFile的读写过程的问题。

为解决上述技术问题,本发明的实施例提供技术方案如下:

本发明实施例提供了一种数据处理方法,所述方法包括:

将获取的流文件FlowFile中的元数据metadata拆分为一个或多个记录Record;

从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分。

在本申请的一个优先实施例中,将获取的FlowFile中的元数据拆分为一个或多个Record,包括:

根据元数据的数据类型,将获取的流文件FlowFile中的元数据metadata拆分为一个或多个Record。

在本申请的一个优先实施例中,根据数据类型,将获取的FlowFile中的元数据metadata拆分为一个或多个Record,包括:

如果所述FlowFile中的metadata的数据类型包括:逗号分隔值csv文件和/或数据库数据,则所述FlowFile中的metadata按行拆分,一行metadata拆分为一个Record;

和/或,

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111318769.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top