[发明专利]一种基于溯源分析技术的数据质量监察系统在审
申请号: | 202010449975.8 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111723082A | 公开(公告)日: | 2020-09-29 |
发明(设计)人: | 江浩;张俊;余坤;梁礼华;吴书丹 | 申请(专利权)人: | 贵州华泰智远大数据服务有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/2455;G06N20/00 |
代理公司: | 贵阳易博皓专利代理事务所(普通合伙) 52116 | 代理人: | 张浩宇 |
地址: | 550001 贵州省贵阳市贵阳国家高新技术产业开*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 溯源 分析 技术 数据 质量 监察 系统 | ||
1.一种基于溯源分析技术的数据质量监察系统,包括数据采集器、数据分析与过滤器、数据质量报告反馈系统,其特征在于:所述的数据采集器,用于通过数据爬虫、消息队列监听和数据接口抽取的方式采集数据,并运用血缘标记为采集的数据项标记数据源系统信息,形成数据元组;
所述的数据分析与过滤器,用于对采集到的、即将进入存储单元的数据元组进行数据流监测,将符合质量筛查条件的数据放行,进入数据存储单元,等待存储入库;将不符合质量筛查条件的疑似问题数据送入分析器,形成问题数据组,送入到数据质量报告反馈系统;
所述的数据质量报告反馈系统,用于接收来自数据分析与过滤器生成的问题数据组,并形成数据报告文本,推送到通信服务模块,由通信服务模块将告警消息反馈到数据源系统。
2.根据权利要求1所述的基于溯源分析技术的数据质量监察系统,其特征在于:所述的数据采集器在使用数据爬虫、消息队列监听或数据接口抽取前,需要由管理人员创建数据采集任务,创建数据采集任务时需要用户为本次采集的目标对象打上文本标签进行血缘描述,任务创建完毕后依照用户设定自行采集数据,其采集的数据均携带血缘数据,每一个数据项从被采集、进入分析、存储入库、直至对外服务均携带了血缘信息。
3.根据权利要求1所述的基于溯源分析技术的数据质量监察系统,其特征在于:所述的数据分析与过滤器,先对采集的数据字段以及数据字段的字段名,以一组符合数据质量筛查条件的数据进行快速学习训练,形成自动化的筛选器和分析器。
4.根据权利要求3所述的基于溯源分析技术的数据质量监察系统,其特征在于:所述的分析器,对所有的疑似问题数据,依照训练结果二次判定数据是否存在质量问题,以及数据质量问题产生的可能原因,将原因依照元数据组纳入概率矩阵,通过概率矩阵对照同类数据进行正态分布迭代查询,将确认出现问题的数据标记上问题可能的原因;通过数据血缘反查数据的源系统位置,将确认出现问题的数据标记上产生问题的数据源地址,形成该批次数据质量问题的问题数据组,送入到数据质量报告反馈系统。
5.根据权利要求1所述的基于溯源分析技术的数据质量监察系统,其特征在于:所述的数据质量报告反馈系统,将接收的来自数据分析与过滤器生成的问题数据组,由反馈报告模块依照内置的模板装填,将每一条数据的问题、问题原因的概率数形成一段数据报告文本,推送到通信服务模块,由通信服务模块通过数据接口或短信,将告警消息反馈到数据源系统或血缘数据中记载的维护单位联系人手机上;同时,反馈报告模块将不断与数据分析与过滤部件通信,查看数据问题是否依旧存在,并通知通信服务模块持续地发送告警消息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于贵州华泰智远大数据服务有限公司,未经贵州华泰智远大数据服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010449975.8/1.html,转载请声明来源钻瓜专利网。