[发明专利]ETL任务依赖关系的检测方法、装置及ETL工具有效
申请号: | 201410569204.7 | 申请日: | 2014-10-22 |
公开(公告)号: | CN105589874B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 吴媛媛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/22 |
代理公司: | 北京清源汇知识产权代理事务所(特殊普通合伙) 11644 | 代理人: | 冯德魁 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | etl 任务 依赖 关系 检测 方法 装置 工具 | ||
1.一种ETL任务依赖关系的检测方法,其特征在于,包括:
针对ETL的每一个任务,获取所述任务包括的数据操作指令;
将所述数据操作指令插入到数据库内部表;
根据所述数据操作指令和任务属性表,生成源表对应关系集合和目标表对应关系集合,将所述源表对应关系集合作为第一源表对应关系集合;
根据所述目标表对应关系集合、所述任务属性表和任务依赖关系配置表,生成目标表直接依赖的源表对应关系集合和目标表间接依赖的源表对应关系集合,将所述目标表直接依赖的源表对应关系集合作为第二源表对应关系集合,将所述目标表间接依赖的源表对应关系集合作为第三源表对应关系集合;
遍历所述第一源表对应关系集合、所述第二源表对应关系集合和所述第三源表对应关系集合的各个源表,采用预设的规则,标识与所述任务相关的各个任务依赖关系的错误类型和可优化类型的至少一者;
其中,所述第一源表对应关系集合包括所述任务依赖的各个源表的表名和源表的任务号之间的对应关系;所述目标表对应关系集合包括所述任务中去除临时目标表后的各个目标表的表名和目标表的任务号之间的对应关系;
所述第二源表对应关系集合包括所述目标表对应关系集合中的目标表直接依赖的各个源表的表名和源表的任务号之间的对应关系;所述第三源表对应关系集合包括所述目标表对应关系集合中的目标表间接依赖的各个源表的表名和源表的任务号之间的对应关系。
2.根据权利要求1所述的ETL任务依赖关系的检测方法,其特征在于,在所述获取所述任务包括的数据操作指令之前,还包括:
初始化所述任务属性表和所述任务依赖关系配置表;所述初始化所述任务属性表和所述任务依赖关系配置表,是指将在线任务属性表和在线任务依赖关系配置表同步到线下数据库。
3.根据权利要求2所述的ETL任务依赖关系的检测方法,其特征在于,根据预设的时间间隔,初始化所述任务属性表和所述任务依赖关系配置表。
4.根据权利要求1所述的ETL任务依赖关系的检测方法,其特征在于,所述任务存储在脚本文件或数据库中。
5.根据权利要求4所述的ETL任务依赖关系的检测方法,其特征在于,所述脚本文件采用的编写语言包括以下任意一种:PERL脚本语言、SHELL脚本语言、PYTHON脚本语言。
6.根据权利要求4所述的ETL任务依赖关系的检测方法,其特征在于,在所述获取所述任务包括的数据操作指令之前,还包括:
初始化所述任务的集合;所述初始化所述任务的集合,是指将在线任务的集合同步到线下服务器。
7.根据权利要求6所述的ETL任务依赖关系的检测方法,其特征在于,根据预设的时间间隔,初始化所述任务的集合。
8.根据权利要求4所述的ETL任务依赖关系的检测方法,其特征在于,所述针对ETL的每一个任务,获取所述任务包括的数据操作指令包括:
读取所述任务的集合,获取所述任务的集合中各个所述任务的名称;
根据各个所述任务的名称,读取所述任务,获取该任务包括的所述数据操作指令。
9.根据权利要求1所述的ETL任务依赖关系的检测方法,其特征在于,所述将所述数据操作指令插入到数据库内部表之前,还包括:
对各个所述数据操作指令进行指令表达的规则化处理,具体是指,将所述数据操作指令中的特殊字符转换为空格、将字符转换为大写字符以及删除无效行;所述特殊字符至少包括空白符;所述无效行是指注释行、空白行和注释块。
10.根据权利要求9所述的ETL任务依赖关系的检测方法,其特征在于,所述对各个所述数据操作指令进行指令表达的规则化处理包括:
创建数据库外部表;
将各个所述数据操作指令存储到所述数据库外部表;
读取所述数据库外部表中存储的各个所述数据操作指令,对各个所述数据操作指令进行所述规则化处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410569204.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:网页的页面元素的显示方法和装置
- 下一篇:标题检索器