[发明专利]一种数据清洗系统和方法有效

专利信息
申请号: 202011565426.3 申请日: 2020-12-25
公开(公告)号: CN112667615B 公开(公告)日: 2022-02-15
发明(设计)人: 王彤;黄勇;田翔;范亚洲;周恩泽;魏瑞增;郭圣;刘淑琴 申请(专利权)人: 广东电网有限责任公司电力科学研究院
主分类号: G06F16/215 分类号: G06F16/215;G06F16/25;G06F16/176
代理公司: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
地址: 510080 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 清洗 系统 方法
【说明书】:

发明公开了一种数据清洗系统和方法,系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件;通过数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到数据清洗组件;通过数据清洗组件根据内置的第二工作策略,对源数据进行数据清洗,生成待加载数据;通过数据加载组件根据内置的第三工作策略,将待加载数据加载到目标数据库;通过数据分析组件根据对目标数据库内的待加载数据的质量分析结果,生成策略调整指令并发送到控制组件;通过控制组件响应接收到的策略调整指令,对第一工作策略、第二工作策略和/或第三工作策略进行调整,从而提高数据清洗过程的策略使用灵活性。

技术领域

本发明涉及数据清洗技术领域,尤其涉及一种数据清洗系统和方法。

背景技术

ETL(Extract-Transform-Load,数据仓库技术)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的技术,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

传统的ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。ETL的流程可以用任何的编程语言去开发完成,ETL是极为复杂的过程,可以采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。但对于跨网、异构、多源的复杂数据采集环境,采用高级语言自行编写的ETL工具能获得适应环境的最大灵活性。ETL过程通常需要和业务结合,很多情况下受业务逻辑约束,在过程开发、部署和应用上都有特定的需求。

传统的ETL因其具体执行逻辑复杂,运行环境受业务要求制约大,使用灵活性较低。

发明内容

本发明提供了一种数据清洗系统和方法,解决了现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低。

本发明提供的一种数据清洗系统,包括依次通信连接的数据抽取组件、数据清洗组件和数据加载组件,以及分别与所述数据抽取组件、所述数据清洗组件、所述数据加载组件和数据分析组件通信连接的控制组件;

所述数据抽取组件,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;

所述数据清洗组件,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;

所述数据加载组件,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;

所述数据分析组件,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;

所述控制组件,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。

可选地,还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接;

所述网闸,用于当所述控制组件与所述数据抽取组件位于不同组网时提供共享文件夹;

其中,所述共享文件夹用于接收所述控制组件发送的指令文件并保存。

可选地,所述数据抽取组件,还用于定时扫描所述共享文件夹,并当所述共享文件夹内存有所述指令文件时,采用所述指令文件调整所述第一工作策略。

可选地,所述数据分析组件包括微服务模块和指令生成模块;

所述微服务模块,用于根据所述待加载数据的类型,调用对应的微服务对所述待加载数据进行质量分析,生成质量分析结果;

所述指令生成模块,用于当所述质量分析结果大于预设阈值时,生成策略调整指令并发送到所述控制组件。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电力科学研究院,未经广东电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011565426.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top