[发明专利]数据处理方法、装置、设备及计算机可读存储介质有效
申请号: | 201810645397.8 | 申请日: | 2018-06-21 |
公开(公告)号: | CN110704551B | 公开(公告)日: | 2023-02-17 |
发明(设计)人: | 陈双 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/29 | 分类号: | G06F16/29;G06F16/25;G06F16/56 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 518057 广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 设备 计算机 可读 存储 介质 | ||
本发明提出了一种数据处理方法,包括:在识别到流式数据处理任务中包含并集操作标识的情况下,对所述流式数据处理任务中包含所述并集操作标识的第一数据处理指令进行解析,得到可识别的第二数据处理指令;通过执行所述第二数据处理指令,以对多个流数据处理结果进行并集操作。本发明还公开了一种数据处理装置、设备及计算机可读存储介质,通过实施上述方案,实现了流式ETL数据系统对多个流数据处理结果进行并集操作。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。
背景技术
现有的批量数据模型使用ETL(Extract(抽取)、Transform(交互转换)和Load(加载))构建数据系统,通过查询语言(例如:SQL(Structured Query Language,结构化查询语言))访问数据系统,以进行数据分析。随着信息数据的实时化和流式化的发展,传统的批量处理数据方式难以应付流式数据处理,且不能很好的满足数据实时计算的需求。为能够实时处理流式数据,流式计算应运而生,流式ETL数据系统能够对源源不断的流式数据进行实时计算和处理,并将处理结果进行存储并提供给业务系统(例如:车辆监控、人员布控和实时人流预警等业务系统)使用,然而现有的流式ETL数据系统在对多个数据流进行合并时,需要对每个数据流做一次插入数据源的操作,计算及存储过程缓慢。
发明内容
本发明提出了一种数据处理方法、装置、设备及计算机可读存储介质,用以解决现有技术中流式ETL数据系统无法对多个流数据处理结果进行并集操作的问题。
本发明采用的技术方案是提供一种数据处理方法,包括:
在识别到流式数据处理任务中包含并集操作标识的情况下,对所述流式数据处理任务中包含所述并集操作标识的第一数据处理指令进行解析,得到可识别的第二数据处理指令;
通过执行所述第二数据处理指令,以对多个流数据处理结果进行并集操作。
可选的,在所述对所述流式数据处理任务中包含所述并集操作标识的第一数据处理指令进行解析之前,所述方法还包括:
当接收到所述流式数据处理任务时,基于预置的并集操作标识字符匹配模板,对所述流式数据处理任务中的所有数据处理指令进行并集操作标识字符匹配识别,以识别所述流式数据处理任务中是否包含并集操作标识。
可选的,所述可识别的第二数据处理指令包括并集操作的语法树对象;
所述对所述流式数据处理任务中包含所述并集操作标识的第一数据处理指令进行解析,得到可识别的第二数据处理指令,包括:
对所述第一数据处理指令的正则表达式进行词法分析和语法分析,得到可识别的数据处理指令文件;
通过解析所述数据处理指令文件,得到所述并集操作的语法树对象。
可选的,所述通过执行所述第二数据处理指令,以对多个流数据处理结果进行并集操作,包括:
根据所述并集操作的语法树对象,对多个流数据处理结果执行并集操作。
可选的,在所述通过执行所述第二数据处理指令,以对多个流数据处理结果进行并集操作之前,所述方法还包括:
将接收到的所述流式数据处理任务分解为多个子流式数据处理任务;
并行执行所有独立的子流式数据处理任务,并顺序执行存在依赖关系的子流式数据处理任务,以得到多个所述流数据处理结果。
可选的,所述第一数据处理指令的数量为多个;
所述通过执行所述第二数据处理指令,以对多个流数据处理结果进行并集操作,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810645397.8/2.html,转载请声明来源钻瓜专利网。