[发明专利]数据处理方法及装置在审
申请号: | 202210445104.8 | 申请日: | 2022-04-26 |
公开(公告)号: | CN114780529A | 公开(公告)日: | 2022-07-22 |
发明(设计)人: | 顾超;刘立力 | 申请(专利权)人: | 湖南快乐阳光互动娱乐传媒有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/22;G06F16/2455;G06F11/30 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李伟 |
地址: | 410003 湖南省*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 装置 | ||
本发明提供了一种数据处理方法及装置,该方法包括:接收数据清洗任务;获取数据清洗任务对应的数据来源信息和数据输出信息;获取FLinkSQL脚本,并应用FLinkSQL脚本对数据来源信息对应的第一数据流和数据输出信息对应的第二数据流进行数据清洗;启用任务监控模块对数据清洗过程进行实时监控以确定是否存在任务积压;当不存在任务积压,获取清洗结果,判断清洗结果是否满足清洗条件;当满足清洗条件,将清洗结果发送至Flink集群,通过Flink集群存储并输出清洗结果。应用本发明提供的方法,可以应用FlinkSQL脚本实现自动化清洗,并且对清洗过程进行监控,减少人工参与,提高数据处理的效率和用户体验。
技术领域
本发明涉及数据处理技术领域,特别是涉及一种数据处理方法及装置。
背景技术
实时数据清洗是整个数据分析过程中一个不可缺少的环节,其清洗结果质量直接关系到数据模型的效果和最终用于决策的效果,而数据清洗的过程往往占整个数据分析的50%甚至更多的时间。
现有技术中,对数据进行清洗的过程涉及到实时的数据流清洗,而对于数据流的清洗需要注意数据清洗过程的效率以及准确性,但现有技术中对数据流的实时清洗需要用户参与整个操作,导致数据清洗的效率较低,且影响用户的操作体验。
发明内容
有鉴于此,本发明提供一种数据处理方法,通过该方法,可以应用Flink SQL脚本实现自动化清洗,并且对清洗过程进行监控,减少人工参与,提高数据处理的效率和用户体验。
本发明还提供了一种数据处理装置,用以保证上述方法在实际中的实现及应用。
一种数据处理方法,包括:
接收用户经由数据中心发出的数据清洗任务;
获取所述数据清洗任务对应的数据来源信息和数据输出信息,所述数据来源信息及数据输出信息为数据的存储信息,所述数据的存储信息为数据库的数据表信息或kafka的主题信息;
基于预设的表创建语法,对所述数据来源信息对应的数据流及所述数据输出信息对应的数据流进行处理,获得所述数据来源信息对应的第一数据流和所述数据输出信息对应的第二数据流;
获取所述用户预先提交的数据清洗FLink SQL脚本,并应用所述FLink SQL脚本对所述第一数据流,和所述第二数据流进行数据清洗;
启用预设的任务监控模块对数据清洗过程进行实时监控,确定所述数据清洗任务是否存在任务积压;
当所述数据清洗任务不存在任务积压时,获取数据清洗后的清洗结果,并确定所述清洗结果是否满足预设的清洗条件;
当所述清洗结果满足所述清洗条件时,将所述清洗结果发送至预先设置的Flink集群,并通过所述Flink集群存储并输出所述清洗结果。
上述的方法,可选的,所述获取所述数据清洗任务对应的数据来源信息和数据输出信息,包括:
连接所述数据中心的数据库;
获取所述数据库中所述数据清洗任务对应的任务标识码;
基于所述任务标识码提取所述数据库中所述数据清洗任务对应的任务包;
解析所述任务包,获取所述任务包中所述数据清洗任务对应的数据来源信息和数据输出信息。
上述的方法,可选的,所述启用预设的任务监控模块对数据清洗过程进行实时监控,确定所述数据清洗任务是否存在任务积压,包括:
启动预先设置的Kafka消费组水位逻辑模块;
应用所述Kafka消费组水位逻辑模块,实时记录所述FLink SQL脚本每次消费所述第一数据流和所述第二数据流进行数据清洗的消费延迟信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南快乐阳光互动娱乐传媒有限公司,未经湖南快乐阳光互动娱乐传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210445104.8/2.html,转载请声明来源钻瓜专利网。