[发明专利]一种数据检验的方法、装置和系统在审
申请号: | 202011625467.7 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112632174A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 曹海洋;王振振;孙迁;郭文凭;徐伟 | 申请(专利权)人: | 江苏苏宁云计算有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/215 |
代理公司: | 北京市万慧达律师事务所 11111 | 代理人: | 陈怡 |
地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 检验 方法 装置 系统 | ||
本发明公开了一种数据检验的方法、装置和系统,属于大数据处理技术领域。方法包括:基于离线数据任务构建数据检验任务,离线数据任务包括:从源数据库抽取目标数据写入目标数据库中;确定数据检验任务相对于离线数据任务的执行顺序;按照执行顺序执行数据检验任务;执行中根据异常判断条件判断数据目标数据是否异常,若检验到异常,则中断数据检验任务,生成检验信息,当接收到用户根据检验信息提供的数据修改信息后,继续执行数据检验任务。本发明预先配置或基于自动获取并解析脚本生成的默认配置即可实现执行顺序设置,并基于离线数据任务可以自动判断执行顺序,提高了数据检验操作的灵活性和定位问题数据的准确性,提高了检验效率。
技术领域
本发明涉及大数据处理技术领域,特别涉及一种数据检验的方法、装置和系统。
背景技术
数据仓库存储技术(ETL)是一种将业务系统的数据经过抽取、清洗转换之后加载到数据仓库进行存储管理,为后续联机分析处理、数据挖掘提供基础数据的技术。为了保证入库数据的质量,从数据源抽取出来的数据在进入数据仓库之前需要进行数据检验。数据检验主要是对数据进行数据类型、取值范围、无效、重复等坏点数据的检测,以及唯一性、关联性、一致性、准确性、单字段,记录行统计型等校验。现有技术中,由于不同数据的质量评价标准不同,每天的数据检验均要引入新的检验方法,但是随着入库数据量的增加,数据检验的压力也越来越大,因此需要考虑一种快速实现数据检验的技术方案。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种数据检验的方法、装置和系统。所述技术方案如下:
第一方面,提供了一种数据检验方法,所述方法包括:
基于离线数据任务构建数据检验任务,所述离线数据任务包括:从源数据库抽取目标数据写入目标数据库中;
确定所述数据检验任务相对于所述离线数据任务的执行顺序;
按照所述执行顺序执行所述数据检验任务;
执行中根据异常判断条件判断所述目标数据是否异常,若检验到异常,则中断所述数据检验任务,生成检验信息,当接收到用户根据所述检验信息提供的数据修改信息后,继续执行所述数据检验任务。
进一步地,所述按照所述执行顺序执行所述数据检验任务,包括:
若所述数据检验任务为执行中任务,则将所述目标数据从所述源数据库中抽取写入到临时数据库中,对所述临时数据库中的所述目标数据执行同步数据检验;
若所述目标数据通过检验,则将所述临时数据库中的所述目标数据同步写入到所述目标数据库中,待从所述源数据库抽取出的所述目标数据全部通过检验并写入到所述目标数据库后删除所述临时数据库,
若所述目标数据未通过检验,则将所述临时数据库删除。
进一步地,所述按照所述执行顺序执行所述数据检验任务,包括:
若所述数据检验任务为前置任务,则在所述目标数据抽取之前在所述源数据库中执行所述数据检验任务;若所述目标数据通过检验,则将其从所述源数据库中抽取出并写入所述目标数据库中。
进一步地,所述按照所述执行顺序执行所述数据检验任务,包括:
若所述数据检验任务为后置任务,则在所述目标数据从所述源数据库抽取写入到所述目标数据库后,在所述目标数据库中执行所述数据检验任务。
进一步地,所述基于离线数据任务构建数据检验任务,包括:
获取所述离线数据任务;
判断所述离线数据任务是否有对应的数据检验规则,若有,则为所述离线数据任务配置数据检验规则,并获取资源元数据以及检验参数表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏苏宁云计算有限公司,未经江苏苏宁云计算有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011625467.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置