[发明专利]一种数据清洗系统和方法有效
申请号: | 202011565426.3 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112667615B | 公开(公告)日: | 2022-02-15 |
发明(设计)人: | 王彤;黄勇;田翔;范亚洲;周恩泽;魏瑞增;郭圣;刘淑琴 | 申请(专利权)人: | 广东电网有限责任公司电力科学研究院 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25;G06F16/176 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 王宝筠 |
地址: | 510080 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 清洗 系统 方法 | ||
本发明公开了一种数据清洗系统和方法,系统包括数据抽取组件、数据清洗组件、数据加载组件、数据分析组件和控制组件;通过数据抽取组件根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到数据清洗组件;通过数据清洗组件根据内置的第二工作策略,对源数据进行数据清洗,生成待加载数据;通过数据加载组件根据内置的第三工作策略,将待加载数据加载到目标数据库;通过数据分析组件根据对目标数据库内的待加载数据的质量分析结果,生成策略调整指令并发送到控制组件;通过控制组件响应接收到的策略调整指令,对第一工作策略、第二工作策略和/或第三工作策略进行调整,从而提高数据清洗过程的策略使用灵活性。
技术领域
本发明涉及数据清洗技术领域,尤其涉及一种数据清洗系统和方法。
背景技术
ETL(Extract-Transform-Load,数据仓库技术)是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的技术,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。
传统的ETL的设计分三部分:数据抽取、数据的清洗转换、数据的加载。ETL的流程可以用任何的编程语言去开发完成,ETL是极为复杂的过程,可以采用工具协助ETL的开发,并运用其内置的metadata功能来存储来源与目的的对应(mapping)以及转换规则。但对于跨网、异构、多源的复杂数据采集环境,采用高级语言自行编写的ETL工具能获得适应环境的最大灵活性。ETL过程通常需要和业务结合,很多情况下受业务逻辑约束,在过程开发、部署和应用上都有特定的需求。
传统的ETL因其具体执行逻辑复杂,运行环境受业务要求制约大,使用灵活性较低。
发明内容
本发明提供了一种数据清洗系统和方法,解决了现有技术中的数据清洗过程由于具体执行逻辑复杂,运行环境受业务要求制约大,导致其使用灵活性较低。
本发明提供的一种数据清洗系统,包括依次通信连接的数据抽取组件、数据清洗组件和数据加载组件,以及分别与所述数据抽取组件、所述数据清洗组件、所述数据加载组件和数据分析组件通信连接的控制组件;
所述数据抽取组件,用于根据内置的第一工作策略,从预设的源数据库抽取源数据并发送到所述数据清洗组件;
所述数据清洗组件,用于根据内置的第二工作策略,对所述源数据进行数据清洗,生成待加载数据;
所述数据加载组件,用于根据内置的第三工作策略,将所述待加载数据加载到目标数据库;
所述数据分析组件,用于根据对所述目标数据库内的所述待加载数据的质量分析结果,生成策略调整指令并发送到所述控制组件;
所述控制组件,用于响应接收到的所述策略调整指令,对所述第一工作策略、所述第二工作策略和/或所述第三工作策略进行调整。
可选地,还包括网闸,所述网闸分别与所述数据抽取组件、所述数据清洗组件和所述控制组件通信连接;
所述网闸,用于当所述控制组件与所述数据抽取组件位于不同组网时提供共享文件夹;
其中,所述共享文件夹用于接收所述控制组件发送的指令文件并保存。
可选地,所述数据抽取组件,还用于定时扫描所述共享文件夹,并当所述共享文件夹内存有所述指令文件时,采用所述指令文件调整所述第一工作策略。
可选地,所述数据分析组件包括微服务模块和指令生成模块;
所述微服务模块,用于根据所述待加载数据的类型,调用对应的微服务对所述待加载数据进行质量分析,生成质量分析结果;
所述指令生成模块,用于当所述质量分析结果大于预设阈值时,生成策略调整指令并发送到所述控制组件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司电力科学研究院,未经广东电网有限责任公司电力科学研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011565426.3/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置