[发明专利]一种针对工作流的海量数据清洗系统在审
申请号: | 201711239168.8 | 申请日: | 2017-12-01 |
公开(公告)号: | CN109947748A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 徐继峰;周峻松;祁建明;陈墩金 | 申请(专利权)人: | 广州明领基因科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06Q10/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 510610 广东省广州市天河区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 工作流 工作流管理 逻辑层模块 知识库模块 子系统模块 海量数据 清洗系统 清洗 分层模式 交互接口 逻辑组件 系统架构 组件技术 松耦合 引入 管理 | ||
本发明公开了一种针对工作流的海量数据清洗系统,该系统包括:知识库模块、逻辑层模块以及工作流管理子系统模块;其中,所述知识库模块是系统的最低层,为清洗提供所需的知识;所述逻辑层模块是系统的第2层,通过一定的逻辑组件建立清洗流程;所述工作流管理子系统模块是系统的第3层,提供对工作流的管理和用户的交互接口。本发明方案引入JavaEE的分层模式和组件技术,实现了松耦合的系统架构。
技术领域
本发明属于大数据清洗技术领域,涉及一种针对工作流的海量数据清洗系统。
背景技术
数据质量问题普遍存在于各应用系统中,数据质量问题主要是指数据在正确性、一致性、完整性、可靠性上存在问题。造成这些问题的主要原因有业务系统在录入数据时数据源的复杂性,其中包括滥用缩写词、惯用语、数据输入错误、数据中的内嵌信息错误、重复记录、丢失值、拼写变化、不同的计量单位和过时的编码等;在数据集成和数据仓库建设时,由于原有业务系统的差异也会造成数据混乱冗余。这些存在质量问题的数据在给领导提供决策时,很可能提供错误的信息,并且不能被新的业务系统使用。
数据清洗比对工具是针对这些问题数据的加工工具,它通过一系列的数据抽取、转换、清洗比对,实现数据的一致和准确。
通过对各种数据的分析发现由于数据问题的多样性,清洗系统无法在代码级别实现完全通用;另一方面从软件工程和需求的角度分析,作为数据清洗系统除了满足业务的要求之外,还应当保证如下的性能即:通用性、可集成和扩展性、容灾性、纠错性、自学习和易操作管理性。
发明内容
本发明目的在于提供一种针对工作流的海量数据清洗系统,针对业务系统本身的差异性以及所录入数据源的复杂性导致的脏数据问题,采用组件、服务分层的模式,通过工作流和工作流引擎实现了松耦合的系统架构,并在组件和服务级别上实现了较强的复用性,在领域级别上实现了较强的重用性,有效地解决了针对不同原因导致的脏数据的数据清洗问题,提高了数据清洗系统的扩展性、通用性以及跨平台性。
为解决上述技术问题,本发明采用如下的技术方案:一种针对工作流的海量数据清洗系统,该系统包括:知识库模块、逻辑层模块以及工作流管理子系统模块;其中,所述知识库模块是系统的最低层,为清洗提供所需的知识;所述逻辑层模块是系统的第2层,通过一定的逻辑组件建立清洗流程;所述工作流管理子系统模块是系统的第3层,提供对工作流的管理和用户的交互接口。
进一步地,所述知识库模块负责存放领域专家抽象出的通用知识和某个特定领域的专家处理问题的经验和方法,用XML描述成通用的格式。
进一步地,所述逻辑层模块在应用上分为3个不同的单元,从下到上分别为组件单元、服务单元以及领域流程单元;其中,所述组件单元能将知识库中的知识转化为能处理问题的组件;所述服务单元是对组件更高层次的一次封装;所述领域流程单元能够完成特定领域的清洗调用。
进一步地,所述工作流管理子系统模块包含工作流执行引擎子模块和系统管理子模块;其中,所述工作流执行引擎子模块为数据清洗的处理提供了基于时间和事件的处理机制;所述系统管理子模块包含知识库管理、领域流程管理、组件管理、以及服务管理。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对业务系统本身的差异性以及所录入数据源的复杂性导致的脏数据问题,采用组件、服务分层的模式,通过工作流和工作流引擎实现了松耦合的系统架构,并在组件和服务级别上实现了较强的复用性,在领域级别上实现了较强的重用性,有效地解决了针对不同原因导致的脏数据的数据清洗问题,提高了数据清洗系统的扩展性、通用性以及跨平台性。
附图说明
图1是一种针对工作流的海量数据清洗系统的功能构架图。
图2是一种针对工作流的海量数据清洗系统的工作流管理子系统的功能模块框架图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州明领基因科技有限公司,未经广州明领基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711239168.8/2.html,转载请声明来源钻瓜专利网。