[发明专利]数据质量检查方法及装置在审
申请号: | 202011387513.4 | 申请日: | 2020-12-02 |
公开(公告)号: | CN112463780A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 邓洪文;镇超;卞小香;吴多 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06Q40/00 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;孙乳笋 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 质量 检查 方法 装置 | ||
本发明提供的数据质量检查方法及装置,具体可用于信息安全技术领域,在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;然后对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作,进而,建立数据质量检查多重防线,同时以数据湖作为分界线采取事前、事中、事后的数据质量控制方法,可以很好提升数据湖数据质量,提升全行业务系统的数据质量,减少后续数据使用导致的问题,同时在不同阶段结合数据阶段本身的特性执行不同的检查工作,准确性高,可以有效减小后续校验加工结果的工作量。
技术领域
本发明涉及计算机领域,具体涉及数据质量检查方法及装置。
背景技术
金融业是典型的数据种类繁多、数据量巨大、专业性强的行业。以一个中型银行为例,按业务或者功能划分,其内部应用系统一般有数百个之多,每一个应用系统的数据也是海量的。同时各个应用系统各自为政,各系统的数据难以流通及共享,存在数据信息孤岛的问题。目前大型商业银行都进行各业务系统数据入湖的方式,所有业务系统数据都全部进入一个统一的数据湖中,解决数据共享及数据信息孤岛的问题。但往往各业务系统数据质量参差不齐,数据类型千差万别,数据入湖后,存在数据质量不高,导致后续应用系统使用数据湖数据进行数据加工时,加工出来的数据结果不准确等问题,但是现有技术无法找到数据结果不准确的原因所在,因此只能在结果端以校验的形式检查加工完成的数据结果,这样处理无疑增大了后期校验的工作以及数据湖的负担。
发明内容
针对现有技术中的问题,本发明提供一种数据质量检查方法及装置。
本发明第一方面提供一种数据质量检查方法,包括:
在各上游数据系统的待下传数据派发至各下游业务系统的过程中,对所述过程的各个阶段执行对应的第一检查操作;所述各个阶段基于所述上游数据系统和所述下游业务系统之间的中间数据湖划分;
对通过所述第一检查操作并已对应派发至各下游业务系统的数据按照对应的数据质量检查规则执行第二检查操作。
在优选的实施例中,还包括:
对所述中间数据湖的接口文件和各上游数据系统的内部数据库存储数据表进行一致性校验。
在优选的实施例中,在各上游数据系统的待下传数据传输至中间数据湖之前,所述数据质量检查方法,还包括:
校验所述待下传数据的数据文件贴源加载的一致性。
在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之前;
在传入所述中间数据湖之前执行对应的第一检查操作,包括:
对通过贴源加载校验后的元数据信息和待下传数据的数据文件进行对比,确定不符合的检查项;所述检查项包括文件记录长度、字段数、分隔符、换行符以及字段长度。
在优选的实施例中,所述各个阶段包括:传入所述中间数据湖的传入过程中;
在传入所述中间数据湖的传入过程中执行对应的第一检查操作,包括:
对所述中间数据湖中记载数据文件后更新的数据表进行增量记录数检查、增量记录数波动率的检查、首存记录数检查、存量记录数检查以及主键字段检查。
在优选的实施例中,所述各个阶段包括:传入所述中间数据湖之后并且在派发至各下游业务系统之前;
在传入所述中间数据湖之后并且在派发至各下游业务系统之前执行对应的第一检查操作,包括:
对传入所述中间数据湖之后的数据进行非空字段检查和一致性检查;
对在数据湖中共享的关键指标数据进行波动检查。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011387513.4/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置