[发明专利]一种基于溯源分析技术的数据质量监察系统在审
申请号: | 202010449975.8 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111723082A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 江浩;张俊;余坤;梁礼华;吴书丹 | 申请(专利权)人: | 贵州华泰智远大数据服务有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06N20/00 |
代理公司: | 贵阳易博皓专利代理事务所(普通合伙) 52116 | 代理人: | 张浩宇 |
地址: | 550001 贵州省贵阳市贵阳国家高新技术产业开*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 溯源 分析 技术 数据 质量 监察 系统 | ||
本发明公开了一种基于溯源分析技术的数据质量监察系统,包括数据采集器、数据分析与过滤器、数据质量报告反馈系统。本发明通过对采集数据的错误情况,结合机器训练成果与数据血缘信息,自动地、智能化地推导出数据质量问题背后的可能因素,这些因素与概率数据能够被准确记录,形成问题报告及时向数据源发出质量反馈信息,帮助数据源提高数据质量,主动减少错误数据的产生,并有针对性地对系统功能进行改造,实现了数据质量问题精准解决、数据质量最小成本提升的目标。
技术领域
本发明涉及一种基于溯源分析技术的数据质量监察系统,属于计算机大数据技术领域。
背景技术
常规的数据监察手段主要通过正则表达式、规则集、约束条件表达式、三元操作等方式反馈数据存在的错误。这种事后控制机制仅能过滤和告知错误数据,避免造成错误数据应用产生的系统崩溃,但无法积极、主动地提高数据质量。
大数据的发展离不开大量聚合数据和离散数据的结构化组织分析,要想做到有价值、有决策辅助意义的数据分析,就必然需要无错误、高质量、高价值的数据作为基础。目前,市场上主要的数据共享交换平台大多数解决的都是多源异构系统的数据采集、数据的主题化存储分块以及对外的接口化数据服务,一旦采集到错误的数据,采取的都是原样存储或过滤器过滤的方式,这种数据质量稽核方式仅能做到确保没有错误的数据被采集,无法在顶层结构上主动改变数据的质量问题,导致原本可以提高数据质量的源系统不知道如何改进数据、甚至不知道需要改进数据质量的问题。因此,需要一种新的体系化的解决方案来解决上述问题。
发明内容
本发明所要解决的技术问题在于提供一种基于溯源分析技术的数据质量监察系统,通过该系统定位出数据质量问题的根源和改进方案,帮助数据源提高数据质量,主动减少错误数据的产生,克服上述现有技术的不足。
为解决上述技术问题,本发明采用的技术方案如下:
一种基于溯源分析技术的数据质量监察系统,包括数据采集器、数据分析与过滤器、数据质量报告反馈系统,所述的数据采集器,用于通过数据爬虫、消息队列监听和数据接口抽取的方式采集数据,并运用血缘标记为采集的数据项标记数据源系统信息,形成数据元组;
所述的数据分析与过滤器,用于对采集到的、即将进入存储单元的数据元组进行数据流监测,将符合质量筛查条件的数据放行,进入数据存储单元,等待存储入库;将不符合质量筛查条件的疑似问题数据送入分析器,形成问题数据组,送入到数据质量报告反馈系统;
所述的数据质量报告反馈系统,用于接收来自数据分析与过滤器生成的问题数据组,并形成数据报告文本,推送到通信服务模块,由通信服务模块将告警消息反馈到数据源系统。
上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的数据采集器在使用数据爬虫、消息队列监听或数据接口抽取前,需要由管理人员创建数据采集任务,创建数据采集任务时需要用户为本次采集的目标对象打上文本标签进行血缘描述,任务创建完毕后依照用户设定自行采集数据,其采集的数据均携带血缘数据,每一个数据项从被采集、进入分析、存储入库、直至对外服务均携带了血缘信息。
上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的数据分析与过滤器,先对采集的数据字段以及数据字段的字段名,以一组符合数据质量筛查条件的数据进行快速学习训练,形成自动化的筛选器和分析器。
上述的基于溯源分析技术的数据质量监察系统,作为一种优选方案,所述的分析器,对所有的疑似问题数据,依照训练结果二次判定数据是否存在质量问题,以及数据质量问题产生的可能原因,将原因依照元数据组纳入概率矩阵,通过概率矩阵对照同类数据进行正态分布迭代查询,将确认出现问题的数据标记上问题可能的原因;通过数据血缘反查数据的源系统位置,将确认出现问题的数据标记上产生问题的数据源地址,形成该批次数据质量问题的问题数据组,送入到数据质量报告反馈系统。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州华泰智远大数据服务有限公司,未经贵州华泰智远大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010449975.8/2.html,转载请声明来源钻瓜专利网。