[发明专利]用于数据质量监控的系统和方法有效

专利信息
申请号: 201210225743.X 申请日: 2012-06-29
公开(公告)号: CN102855170A 公开(公告)日: 2013-01-02
发明(设计)人: M·奥伯霍菲尔;J·塞弗特;Y·赛勒特;S·尼尔克 申请(专利权)人: 国际商业机器公司
主分类号: G06F11/30 分类号: G06F11/30
代理公司: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 高青
地址: 美国*** 国省代码: 美国;US
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 数据 质量 监控 系统 方法
【说明书】:

技术领域

发明一般涉及ETL(提取-转换-加载)过程期间的数据剖析方法,更具体地说,涉及通过运行数据质量规则并对照先前的结果比较数据质量规则来确定数据质量是提高了还是降低了的数据质量监控。

背景技术

目前,在用于诸如主数据管理(MDM,master data management)、数据仓储(DW,data warehousing)、业务应用整合等的数据集成项目中,利用ETL(提取-转换-加载)过程中的数据剖析技术和/或数据清理方法来识别数据质量问题,使得在这些系统的初始加载阶段期间,只加载高质量的数据。然而,在数据质量问题正在变成企业的成本因素或者甚至完全中断业务过程的业务应用中,数据质量退化。在这些应用系统中,利用数据质量规则定期地测量数据质量是检测退化的速度或者数据质量随着时间的变化以及如果某些最低限度要求的数据质量关键性能指标(KPI)不再被满足而采取行动的动机的唯一途径。对于比如MDM的解决方案来说,除了MDM系统的部署之外,还建立数据支配(DG,data governance)程序以控制主数据的创建、维护和使用以及在其整个生命周期内的主数据质量。在数据支配组织中工作的数据专员定期应用数据剖析测量来控制与主数据的数据质量KPI一致。测量通常是利用语义规则(多种数据剖析技术之一)来进行的。定义数据质量KPI、语义规则、创建初始加载期间的第一基线测量、定期执行这些规则、以及对照基线结果进行比较的步骤被称为数据质量监控。

数据剖析和数据质量监控是I/O密集操作,并且非常费时。因此,对数据质量剖析和数据质量监控来说,可选的是把数据提取到中转区中,以避免由额外的I/O或者因为应用不允许不使用应用专用机制(例如SAP)而直接访问底层数据库而引起的应用性能退化。另一个原因是:如果应用和数据剖析工具所创建的SQL同时在应用数据库中运行,那么避免由SQL语句并发问题引起的应用的功能问题。

诸如DW或业务应用整合的项目中的初始完整数据提取通常需要整个周末,从而由于引起的I/O,在这样的提取期间导致应用的性能退化。对一些系统来说,可能能够定期地获得用于数据质量监控目的的跨周末的数据提取时段。对诸如持久运行的电子商务系统或者其它关键系统的应用来说,通常只能争取用于数据集成的一次性提取的时段。因此,不能进行数据质量监控,并且在业务过程中断或者出现其它严重业务问题之前,数据质量的退化一直未被检测到。

一方面,如果考虑目前已知的数据质量监控技术总是在进行进一步的测量的同时,处理在基线测量的范围内的所有数据,那么该问题会加剧。另一方面,数据量不断增长,并且两次测量之间的时间窗缩短。结果,当下一次测量大概已开始时,上一次测量可能还未完成,从而使一些情况下的数据质量监控甚至不再可行。

目前,数据质量监控领域中缺少的是只处理自最后一次测量以来变化的数据、只重新执行自最后一次测量以来变化的语义规则的各个部分或者它们的组合的能力。

US 2010/0010979A1提供了用于简量精度数据质量信息清理反馈处理的方法和计算机程序产品。

US 2008/0027958A1提供了一种能够在没有人类交互的情况下修改数据记录,响应于来自各种数据质量模块的分析而修改数据记录的数据清理工具。

发明内容

本发明提供一种如权利要求中要求保护的计算机实现的系统。本发明的实施例提供了一种系统和方法,通过对照基线结果比较当前分析结果,随时间利用预定的数据质量度量来检测和控制数据质量。为了优化运算技术,只对数据的增量变化、对质量规则的增量变化和/或对它们的组合进行数据剖析分析。通过在增量加载期间利用交叉参照表,提出的数据质量监控方法基于变化数据捕获(CDC,change data capture)机制(比如基于事务日志的机制或者基于触发的复制)。它使用列式存储技术,从而根据质量规则的运算的区别,允许借助数据质量规则的分解,最小化数据质量规则对数据的执行时间,以及借助高度压缩和传播策略,最小化额外的存储。本发明的实施例在测量数据质量KPI以及两次运行之间KPI的比较方面是有利的,从而提供了接近确定数据质量是提高还是降低的可能性。本发明的实施例具有最小化对应用系统性能的影响以及缩短进行数据质量监控的必需时间的优点。通过只对数据的增量变化、只对质量规则的增量变化和/或对它们的组合进行数据质量分析,本发明的系统和方法可克服本领域中目前存在的数据剖析/质量监控的问题。

附图说明

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210225743.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top