[发明专利]一种基于Flink SQL的数据处理方法、装置、存储介质有效
申请号: | 201911318804.5 | 申请日: | 2019-12-19 |
公开(公告)号: | CN111026779B | 公开(公告)日: | 2023-10-17 |
发明(设计)人: | 王杰诚;郑少明;郑乐乐;郑汉军;许光锋 | 申请(专利权)人: | 厦门安胜网络科技有限公司 |
主分类号: | G06F16/242 | 分类号: | G06F16/242;G06F16/27;G06F16/215 |
代理公司: | 厦门福贝知识产权代理事务所(普通合伙) 35235 | 代理人: | 陈远洋 |
地址: | 361008 福建省厦门市软*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 flink sql 数据处理 方法 装置 存储 介质 | ||
本发明提供了一种基于Flink SQL的数据处理方法装置、存储介质,该方法包括:获取数据源中的待处理的数据并发送至SQL任务提交平台;在SQL任务提交平台中编写SQL语句对数据进行标准化的映射,并在SQL语句中定义数据源表、数据目标表,并为数据选择udf函数;SQL任务提交平台将编写好的SQL语句提交至Flink集群,Flink集群对所述SQL语句进行解析获得UDF函数、数据源表和数据目标表,所述Flink集群基于UDF函数、数据源表和数据目标表进行数据处理,并将处理后的数据输出。本发明提出了风格统一的SQL任务提交平台,使用语法简洁、易学易用的SQL语句来完成数据处理过程中的数据清洗等处理,方便非专业的工作人员进行数据处理,提高了用户体验。
技术领域
本发明涉及数据库处理技术领域,一种基于Flink SQL的数据处理方法、装置、存储介质。
背景技术
大数据系统中的数据通常具有一个或多个数据源,这些数据源可以包括同构/异构的(大)数据库、文件系统、服务接口等。这些数据源中的数据来源现实世界,容易受到噪声数据、数据值缺失与数据冲突等的影响。
数据治理、分析、可视化过程中的算法与实现技术复杂多样,往往需要对数据的组织、数据的表达形式、数据的位置等进行一系列前置处理。这就对研发提出了较高的要求,不仅需要了解业务、数据标准、较高的代码水平,而现实中研发的能力往往参差不齐,这就造就了数据治理质量有好有坏。而数据治理的好坏直接影响到整套系统的可用性、准确性、完整性、时效性、可信性与可解释性等。
可见,在现有技术中,多源数据处理的效率较低、准确性差,且界面不够友好,不方便工作人员进行多源数据的处理。
发明内容
本发明针对上述现有技术中的缺陷,提出了如下技术方案。
一种基于Flink SQL的数据处理方法,该方法包括:
获取步骤,获取数据源中的待处理的数据并发送至SQL任务提交平台;
编写步骤,在SQL任务提交平台中编写SQL语句对数据进行标准化的映射,并在SQL语句中定义数据源表、数据目标表,并为数据选择udf函数;
处理步骤,SQL任务提交平台将编写好的SQL语句提交至Flink集群,Flink集群对所述SQL语句进行解析获得UDF函数、数据源表和数据目标表,所述Flink集群基于UDF函数、数据源表和数据目标表进行数据处理,并将处理后的数据输出。
更进一步地,所述数据源为分布式发布订阅消息系统Kafka。
更进一步地,所述SQL任务提交平台还用于:
查看所述Kafka上汇集的实时推送和离线推送的数据并计算某个范围内数据的空值率及校验数据的准确率;
在编写的SQL语句中定义SQL任务的并行度、检查点及备份点;
以及用于查看SQL任务的执行情况、执行统计和取消SQL任务。
更进一步地,所述Flink集群对所述SQL语句进行解析的操作为:所述Flink集群采用apache calcite解析SQL语句,通过SQL Parser解析SQL语句,并基于正则表达式判定SQL语句的类型,并通过JavaCC将SQL语句解析成AST语法树SqlNode,并且结合元数据验证SQL语句是否符合规范;通过对解析出来的语法树SqlNode再进行解析获得udf函数、数据源表和数据目标表的集合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门安胜网络科技有限公司,未经厦门安胜网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911318804.5/2.html,转载请声明来源钻瓜专利网。