[发明专利]一种数据处理方法、装置及设备在审
申请号: | 202111318769.4 | 申请日: | 2021-11-09 |
公开(公告)号: | CN116107970A | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 蔺东东 | 申请(专利权)人: | 中国移动通信有限公司研究院;中国移动通信集团有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 李清风 |
地址: | 100053 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 设备 | ||
本发明提供了一种数据处理方法、装置及设备,将获取的流文件FlowFile中的元数据metadata拆分为一个或多个记录Record;从一个或多个Record中获取待处理的Record,对待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分。通过将FlowFile分割为一个或多个Record,并将这些Record的信息存储在FlowFile的metadata部分,是存储在内存中的,后续对这些Record进行过滤、转换和计算就能够基于这些记录Record进行操作,而无需对整个的FlowFile进行操作,减少了对于FlowFile的多次读写。
技术领域
本发明涉及数据采集技术领域,特别是指一种数据处理方法、装置及设备。
背景技术
数据处理和分发系统(Apache NiFi,以下简称NiFi)是一款功能非常强大的实现数据采集、数据清洗,将数据从来源端经过抽取、转换并加载至目的端(ETL,Extract-Transform-Load)的开源的工具。NiFi支持图形化操作,对流程设计人员友好;内置200多个处理器(Processor),满足大部分数据采集和清洗的需求;支持数据流的全链路追踪,实时查看数据流向;支持单机、集群、docker等灵活部署,适用于多种使用环境。鉴于NiFi有这么多优势特性,所以在生产环境的ETL场景中得到了广泛的使用。
NiFi在进行数据处理的时候,处理的对象是流文件(FlowFile)。如图1所示,一个FlowFile包含两部分内容:元数据(metadata)和业务数据(data)。其中,metadata主要包含了FlowFile的属性,如唯一标识符、名称、大小和其他一些自定义属性;data是这个FlowFile包含的ETL数据。metadata保存在内存中,可以修改。业务数据不可修改,指向一个本地文件系统的真实文件
在相关技术中,整个ETL流程处理的对象都是FlowFile。由于需要多个Processor对数据进行多次处理,所以导致要多次读取FlowFile,并生成新的FlowFile,导致整个ETL流程的处理速度很慢,无法高性能地处理大量的数据。随着数据接入数量越来越大,这种“整存整取”的处理方式的劣势越来越凸显出来。
发明内容
本发明要解决的技术问题是提供一种数据处理方法、装置及设备,解决如何减少新的FlowFile产生,以及减少FlowFile的读写过程的问题。
为解决上述技术问题,本发明的实施例提供技术方案如下:
本发明实施例提供了一种数据处理方法,所述方法包括:
将获取的流文件FlowFile中的元数据metadata拆分为一个或多个记录Record;
从所述一个或多个Record中获取待处理的Record,对所述待处理的Record进行处理,并将处理后的Record保存到所述FlowFile的metadata部分。
在本申请的一个优先实施例中,将获取的FlowFile中的元数据拆分为一个或多个Record,包括:
根据元数据的数据类型,将获取的流文件FlowFile中的元数据metadata拆分为一个或多个Record。
在本申请的一个优先实施例中,根据数据类型,将获取的FlowFile中的元数据metadata拆分为一个或多个Record,包括:
如果所述FlowFile中的metadata的数据类型包括:逗号分隔值csv文件和/或数据库数据,则所述FlowFile中的metadata按行拆分,一行metadata拆分为一个Record;
和/或,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信有限公司研究院;中国移动通信集团有限公司,未经中国移动通信有限公司研究院;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111318769.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种圆模式采棉机
- 下一篇:流程控制方法、装置及设备