[发明专利]ETL数据处理过程的监控方法及其系统有效
申请号: | 201010001205.3 | 申请日: | 2010-01-04 |
公开(公告)号: | CN102117306A | 公开(公告)日: | 2011-07-06 |
发明(设计)人: | 杨柏刚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 英属开曼群*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | etl 数据处理 过程 监控 方法 及其 系统 | ||
技术领域
本申请涉及通信领域中的数据处理技术,尤其涉及一种ETL数据处理过程的监控方法及其系统。
背景技术
ETL是Extraction-Transformation-Loading的缩写,中文名称为数据抽取、转换和加载。ETL负责将分布的、异构数据源中的数据,如关系数据、平面数据文件等,抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。ETL是数据仓库中的非常重要的一环,它是承前启后的必要的一步。
ETL的质量问题具体表现为正确性、完整性、一致性、完备性、有效性、时效性和可获取性等几个特性。而影响质量问题的原因有很多,由系统集成和历史数据造成的原因主要包括:业务系统不同时期系统之间数据模型不一致;业务系统不同时期业务过程有变化;旧系统模块在运营、人事、财务、办公系统等相关信息的不一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。尤其对于互联网企业来说其数据源更加复杂,包括很多数据源,比如业务数据库中的数据、用户点击日志数据、营销活动广告数据、线下活动数据、呼叫中心(CallCenter)数据等等,这些数据存在的异构性进一步对ETL的质量提出了更高的要求。
ETL处理的过程通常遵循以下顺序:数据抽取->数据清洗->数据转换->数据装载->数据实事表->......->报表输出/回流业务前台。可以看出,这个过程中的每一个数据处理过程的输出就是后一个数据处理过程的输入,因此只要其中的任一个过程出错,就会将错误层层传递,从而影响ETL的质量。
为了对ETL的质量进行监控,目前常用的解决方案是等ETL系统建设完成后开始做监控,如通过输入测试数据到获得最后的报表,通过重新回溯(review)之前建设好的ETL所有过程之间的关系,找出最后的报表中的问题数据产生的原因。
目前对ETL系统的数据处理进行监控的技术方案中,至少存在以下问题:
ETL建设过程通常是一个循序渐近的过程,历时时间比较长,而且这中间历经业务的反复变化、ETL开发人员的轮换等,如果要review整个ETL处理过程将特别耗时,而且由于数据源复杂等问题导致在数据处理的理解或错误原因的分析上存在差异,这将影响对ETL系统质量的判断;
每一个ETL过程的监控指标是人为配置的,从而导致监控指标配置的工作量特别大,而且会引入人为因素导致监控指标没有统一标准,这也会影响对ETL系统质量的判断;
总之,由于要回溯ETL的所有处理过程以及通过人工方式配置监控指标,以找到问题数据产生的原因,因此需要大量复杂的配置与数据效验确认工作,其处理难度高且效率低,而且得到的监控结果准确性差,从而导致对ETL系统的质量的判断的客观性和准确性上也有所欠缺。
发明内容
本申请的实施例提供了一种ETL数据处理过程的监控方法及其系统,用以解决现有技术中的ETL数据处理过程的监控方法效率低以及准确性差的问题。
本申请的实施例提供的技术方案包括:
一种ETL数据处理过程的监控方法,包括:
根据ETL数据处理任务信息,确定ETL数据处理过程的输出数据的字段类型;
根据输出数据的字段类型,生成所述ETL数据处理过程的监控指标,所述监控指标指示按照指定方式对所述ETL数据处理过程的输出数据中的指定字段进行统计或运算;
根据生成的监控指标,对所述ETL数据处理过程的输出数据中的相应字段进行统计或运算,得到监控指标的结果值。
一种ETL数据处理过程的监控系统,包括:
监控指标配置模块,用于根据ETL数据处理任务信息,确定ETL数据处理过程的输出数据的字段类型;以及,根据输出数据的字段类型,生成所述ETL数据处理过程的监控指标,所述监控指标指示按照指定方式对所述ETL数据处理过程的输出数据中的指定字段进行统计或运算;
监控处理模块,用于根据所述监控指标配置模块生成的监控指标,对所述ETL数据处理过程的输出数据中的相应字段进行统计或运算,得到监控指标的结果值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010001205.3/2.html,转载请声明来源钻瓜专利网。