[发明专利]一种基于ETL流程的数据质量管控方法和系统在审
申请号: | 201711021492.2 | 申请日: | 2017-10-26 |
公开(公告)号: | CN109947746A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 高宇;周章雄;陈少钦;刘永江 | 申请(专利权)人: | 亿阳信通股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/25 |
代理公司: | 北京卓岚智财知识产权代理事务所(特殊普通合伙) 11624 | 代理人: | 任漱晨 |
地址: | 150090 黑龙江省哈*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 告警 检查结果 预先设置 质量管控 元数据 订单查询 检查规则 节点设置 快速定位 流程展现 日志查询 数据仓库 数据调度 数据获得 问题节点 周期设置 单数据 申请 数据库 检查 采集 关联 | ||
1.一种基于ETL流程的数据质量管控方法,其特征在于,所述方法包括:
导入元数据,根据所述元数据中各个表的数据获得ETL流程;其中,所述ETL流程包括数据抽取、数据转换和数据加载三个环节, 同时,ETL流程数据呈现包括指标结果和数据处理环境两个环节,所述ETL流程和ETL流程数据呈现的每个环节都包含至少一个检查节点;
为每个检查节点设置相应的检查规则,并定义需要执行的命令语句;
根据所述命令语句,按照预先设置的执行周期执行设定的数据调度任务,对根据所述数据调度任务启动的数据采集任务采集到的数据进行检查,得出检查结果;
将检查结果与预先设置的告警阈值进行比较,如果满足阈值范围,则生成告警详单,并将所述告警详单插入到数据库;
将所述告警详单数据关联汇总到数据仓库层事实汇总数据。
2.根据权利要求1所述的方法,其特征在于,还包括:将所述检查结果通过告警订单查询、日志查询、流程展现和/或报表展现的方式呈现。
3.根据权利要求1所述的方法,其特征在于,所述导入元数据,根据所述元数据中各个表的数据获得ETL流程,具体包括:
将所述元数据中包含的来源表名、目标表名、处理过程名、字段名、字段类型和/或层次读入EXCEL;
根据所述处理过程名、字段类型和/或层次确定所述元数据中各个表的数据的ELT流程环节;
将读入EXCEL的表数据解析为指定的物理表结构,并存入数据库中。
4.根据权利要求1所述的方法,其特征在于,所述为每个检查节点设置相应的检查规则,具体包括:
设置所述ETL流程中的数据抽取环节中的检查节点对应的检查规则为完整性和有效性规则;
设置所述ETL流程中的数据转换环节中的检查节点对应的检查规则为完整性和及时性规则;
设置所述ETL流程中的数据加载环节中的检查节点对应的检查规则为完整性规则;
设置所述ETL流程数据呈现中的指标结果环节中的检查节点对应的检查规则为准确性规则;
设置所述ETL流程数据呈现中的数据处理环境环节中的检查节点对应的检查规则为有效性规则。
5.根据权利要求4所述的方法,其特征在于,所述检查规则中:
完整性检查规则指检查记录行数是否准确、检查文件大小和个数是否完整、检查文件名称是否规范和/或检查字段数是否符合要求;
准确性检查规则指通过同环比的方式检查指标值是否符合要求;
及时性检查规则指检查任务执行是否成功和检查任务执行是否超时;
有效性检查规则指检查字段超长记录数占比、检查不符合长度要求的字段记录数占比、检查空字段记录数占比、检查零字段记录数占比、检查字段无法关联的记录数占比、检查字段在阈值范围内的记录数之比和/或检查目录空间是否异常。
6.根据权利要求1所述的方法,其特征在于,所述按照预先设置的执行周期执行设定的数据调度任务,具体包括:
扫描任务表,如果扫描到任务状态为“启动标识”且执行时间与当前时间相同,则进行任务调度;
按数据任务调度周期和所述执行周期,更新下次执行时间和下次数据时间,其中,所述下次数据时间指根据所述数据调度任务启动数据采集任务的时间;
根据执行任务类型将执行结果插入结果数据表。
7.根据权利要求1所述的方法,其特征在于,根据所述数据任务调度启动数据采集任务采集数据,具体包括:
配置需要收集的基础日志数据,所述日志数据包括存储过程日志、spark过程日志、mr过程日志、redis流程日志和/或sqoop流程日志;
收集所述基础日志数据;
收集数据源文件信息;
收集数据库信息;
收集环境信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亿阳信通股份有限公司,未经亿阳信通股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711021492.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据库优化方法及装置
- 下一篇:基于孤立点检测的大数据异常值清理方法