[发明专利]一种数据交换作业中脏数据的处理方法及装置在审

专利信息
申请号: 201911171177.7 申请日: 2019-11-26
公开(公告)号: CN110955710A 公开(公告)日: 2020-04-03
发明(设计)人: 陈振洲 申请(专利权)人: 杭州数梦工场科技有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/27;G06F16/215;G06F16/28
代理公司: 北京博思佳知识产权代理有限公司 11415 代理人: 王茹
地址: 310024 浙江省杭州*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 数据 交换 作业 处理 方法 装置
【说明书】:

本申请提供一种数据交换作业中脏数据的处理方法及装置,该方法可以包括:接收工作节点集合中任意一个或多个工作节点上传的脏数据信息;将脏数据信息添加至脏数据样本集合中,脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;分析脏数据样本集合以获得针对目的数据库的检测规则,检测规则被用于下发至工作节点集合中,以使工作节点集合中的工作节点根据检测规则预测待提供至目的数据库的数据信息中的脏数据信息。通过本申请的技术方案可以实现快速排查脏数据信息,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率。

技术领域

本公开涉及计算机领域,尤其涉及一种数据交换作业中脏数据的处理方法及装置。

背景技术

ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取、转换、加载至目的端的过程。通常情况下,为了提高ETL交换系统的交换能力,支持更多的数据源接入,ETL交换系统通常会采用集群的方式进行部署,由控制节点统一管理一个或多个工作节点,控制节点可以将交换作业分配给一个或多个工作节点,而工作节点可以横向扩展,进行具体的数据交换工作,工作节点连接了源端数据库和目的端数据库。

在现有技术中,ETL交换系统可以通过单线程方式或者多线程并发方式从源端数据库进行数据的抽取和交换,在数据交换的过程中一旦出现脏数据,如与目的数据库目的字段长度不匹配等情况,数据交换作业就会中断,并且需要从源端数据库的海量数据中查找出脏数据,才能继续启动数据交换作业,影响了数据交换作业的效率。

发明内容

有鉴于此,本申请提供一种数据交换作业中脏数据的处理方法及装置,可以预测出数据交换作业过程中的脏数据信息。

为实现上述目的,本申请提供技术方案如下:

根据本申请的第一方面,提出了一种数据交换作业中脏数据的处理方法,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;

所述方法包括:

接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;

将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;

分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。

根据本申请的第二方面,提出了一种数据交换作业中脏数据的处理方法,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;

所述方法包括:

接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;

根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。

根据本申请的第三方面,提出了一种数据交换作业中脏数据的处理方法,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;

所述方法包括:

根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;

从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911171177.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top