[发明专利]一种分布式多引擎数据质量管理系统在审

申请号：	201811131030.0	申请日：	2018-09-27
公开（公告）号：	CN109254961A	公开（公告）日：	2019-01-22
发明（设计）人：	杨秋勇;杨朝谊;黄剑文;伍江瑶;魏理豪;万婵;陈健欣;范国勇;卢小攀;李松	申请（专利权）人：	广东电网有限责任公司信息中心;广州博纳信息技术有限公司
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/21
代理公司：	佛山市智汇聚晨专利代理有限公司 44409	代理人：	李海鹏
地址：	510000 广东省广州***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	问题数据引擎数据库质量管理系统抽取数据规则引擎核心引擎前端系统业务数据引擎数据导出主键读取分布式运算明细数据去重抽取储存分类
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种分布式多引擎数据质量管理系统，包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。

技术领域

本发明涉及计算机软件系统技术领域，尤其涉及一种分布式多引擎数据质量管理系统。

背景技术

数据质量管理系统一般需要跨多系统或跨多数据源进行校验，为避免网络异常对跨库校验可能引起的影响或对源库造成的性能浪费，通常解决方案是通过ETL技术将源数据抽到中间库中进行校验。但如果校验数据量十分庞大，或者中间库硬件要求不达标，使用SQL对传统关系数据库数据进行检索，整个校验过程可能会是十分漫长，甚至会造成服务器宕机，影响用户使用体验，并且要对校验出来的问题数据进行进一步分析或展示，对校验库来说也是一个大考验。

发明内容

本发明的目的在客服现有技术的不足，提供一种响应速度快、容错率高、对硬件要求较低的分布式多引擎数据质量管理系统。

为了实现以上目的，本发明所采用的技术方案是：

一种分布式多引擎数据质量管理系统，包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎，所述数据库包括有业务数据以及问题数据，所述核心引擎包括有规则引擎、评价引擎和问题数据导出引擎；所述规则引擎抽取数据主键从数据库内抽取业务数据并，所述评价引擎使用分布式运算方式对问题数据进行数据去重和分类；所述问题数据导出引擎根据主键读取明细数据。

进一步，所述数据库为HWAQ数据库并以HDFS文件作为业务数据以及问题数据的储存方式。

进一步，还包括有用于储存元数据于校验规则的oracle数据库。

进一步，所述规则引擎可并行执行N个任务，当规则引擎的任务数量大于N个时，根据预设规则的优先级对该多个任务进进行任务调度。

进一步，当所述规则引擎执行任务后将结果数据按主键分类并反馈至数据库中作为问题数据进行储存。

本发明的有益效果是：本发明的分布式多引擎数据质量管理系统，由于其数据库分布储存于多个设备内，使用分布式系统，可扩展性高，用低成本方案即可提高系统性能；可用性及容错性高，数据存储使用多副本策略，避免原节点宕机导致服务不可用。

附图说明

图1为本发明的分布式多引擎数据质量管理系统的原理图。

图2为本发明的规则引擎并行处理任务的示意图。

图3为本发明的拓扑图。

具体实施方式

现结合附图和具体实施例对本发明所要求保护的技术方案作进一步详细说明。

参见图1所示，本实施例中的分布式多引擎数据质量管理系统包括分布储存于多个设备内的数据库、前端系统界面以及用于从数据库内抽取数据至前端系统界面的核心引擎、用于储存元数据于校验规则的oracle数据库。