[发明专利]一种数据交换作业中脏数据的处理方法及装置在审
申请号: | 201911171177.7 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110955710A | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 陈振洲 | 申请(专利权)人: | 杭州数梦工场科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/27;G06F16/215;G06F16/28 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 王茹 |
地址: | 310024 浙江省杭州*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据 交换 作业 处理 方法 装置 | ||
本申请提供一种数据交换作业中脏数据的处理方法及装置,该方法可以包括:接收工作节点集合中任意一个或多个工作节点上传的脏数据信息;将脏数据信息添加至脏数据样本集合中,脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;分析脏数据样本集合以获得针对目的数据库的检测规则,检测规则被用于下发至工作节点集合中,以使工作节点集合中的工作节点根据检测规则预测待提供至目的数据库的数据信息中的脏数据信息。通过本申请的技术方案可以实现快速排查脏数据信息,即便出现脏数据也不会导致数据交换作业的中断,可以实现工作节点数据交换作业的持续进行,可以提升数据交换过程中对脏数据的处理效率,有效提升数据交换作业的效率。
技术领域
本公开涉及计算机领域,尤其涉及一种数据交换作业中脏数据的处理方法及装置。
背景技术
ETL(Extract-Transform-Load,数据仓库技术),用来描述将数据从源端经过抽取、转换、加载至目的端的过程。通常情况下,为了提高ETL交换系统的交换能力,支持更多的数据源接入,ETL交换系统通常会采用集群的方式进行部署,由控制节点统一管理一个或多个工作节点,控制节点可以将交换作业分配给一个或多个工作节点,而工作节点可以横向扩展,进行具体的数据交换工作,工作节点连接了源端数据库和目的端数据库。
在现有技术中,ETL交换系统可以通过单线程方式或者多线程并发方式从源端数据库进行数据的抽取和交换,在数据交换的过程中一旦出现脏数据,如与目的数据库目的字段长度不匹配等情况,数据交换作业就会中断,并且需要从源端数据库的海量数据中查找出脏数据,才能继续启动数据交换作业,影响了数据交换作业的效率。
发明内容
有鉴于此,本申请提供一种数据交换作业中脏数据的处理方法及装置,可以预测出数据交换作业过程中的脏数据信息。
为实现上述目的,本申请提供技术方案如下:
根据本申请的第一方面,提出了一种数据交换作业中脏数据的处理方法,应用于控制节点,所述控制节点管理工作节点集合中的所有工作节点;
所述方法包括:
接收所述工作节点集合中任意一个或多个工作节点上传的脏数据信息,所述脏数据信息包括由所述任意一个或多个工作节点筛选的不符合目的数据库要求的数据信息;
将所述脏数据信息添加至脏数据样本集合中,所述脏数据样本集合包括从所述工作节点集合接收到的脏数据信息;
分析所述脏数据样本集合以获得针对所述目的数据库的检测规则,所述检测规则被用于下发至所述工作节点集合中,以使所述工作节点集合中的工作节点根据所述检测规则预测待提供至所述目的数据库的数据信息中的脏数据信息。
根据本申请的第二方面,提出了一种数据交换作业中脏数据的处理方法,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述方法包括:
接收所述控制节点下发的针对目的数据库的检测规则,所述检测规则由所述控制节点分析所述工作集合中的工作节点上传的不符合目的数据库要求的脏数据信息而获得;
根据所述检测规则对待提供至所述目的数据库的数据信息进行预测,并将不符合所述检测规则的数据信息判定为脏数据信息。
根据本申请的第三方面,提出了一种数据交换作业中脏数据的处理方法,应用于工作节点,所述工作节点是工作节点集合中的任意一个,所述工作节点集合包括由控制节点进行统一管理的所有工作节点;
所述方法包括:
根据所述控制节点下发的数据交换作业任务,获取待提供至目的数据库的数据信息;
从获取的数据信息中筛选出不符合所述目的数据库要求的脏数据信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数梦工场科技有限公司,未经杭州数梦工场科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911171177.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置