[发明专利]确定数据库表之间的数据映射关系的方法和装置有效
申请号: | 201110047151.9 | 申请日: | 2011-02-28 |
公开(公告)号: | CN102650996A | 公开(公告)日: | 2012-08-29 |
发明(设计)人: | 谈华芳;朱俊;高雪峰;鞠琳 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 于静;张亚非 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 数据库 之间 数据 映射 关系 方法 装置 | ||
技术领域
本发明涉及数据处理技术,具体涉及一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法和装置,以及一种用于验证数据的方法和装置。
背景技术
多年以来,商业智能(Business Intelligence,简称BI)一直是一个技术热点,越来越多的企业采用了商业智能技术,以提供决策支持。商业智能是指用于发现、收集、分析企业的诸如销售、成本、收入等商业数据的基于计算机的技术。商业智能技术通常通过ETL(Extract-Transform-Load,即数据抽取、转换、装载)过程,从企业自身的诸如ERP(Enterprise Resource Planning,即企业资源计划)、CRM(Customer Relationship Management,即客户关系管理)等业务系统及企业所处的外部环境等数据源中提取数据,并将所述数据进行适当转换后,注入到数据仓库中;然后,通过OLAP(On-Line Analytical Processing,即联机分析处理)等技术生成可用于决策支持的数据报告。图1示出了商业智能技术的示意图。如图所示,来自于ERP、CRM、其他业务系统数据库等数据源的数据通过ETL过程被注入到数据仓库中,而通过OLAP过程可以根据数据仓库中的数据生成各种用于决策支持的数据报告。
数据仓库中数据的准确性对于提供正确的决策支持是至关重要的。在目前的BI解决方案中,经常会发生如下三种类型的数据错误:一是在数据仓库中出现脏数据(dirty data),这种脏数据并不是由数据源中的数据经适当转换而产生的,而是在ETL过程中错误地产生的;二是对数据源中的数据应用了错误的过滤器逻辑,过滤掉了不该过滤的数据,使得数据仓库中无法出现本该出现的数据;三是ETL开发不符合设计规范,在ETL过程中应用了错误的数据转换,使得数据仓库中的数据与数据源中的数据之间的映射关系错误。
为了发现并改正BI解决方案中的数据错误,需要对BI解决方案中的数据进行验证。图2示出了一种现有的基于样本的验证方法。如图所示,该方法需要测试者首先从目标数据库(即数据仓库)中获得随机样本目标数据,理解所述目标数据的业务含义,根据所述业务含义生成针对源数据库(即作为数据源的业务系统数据库等)的查询,通过针对源数据库执行所述查询而获取源数据,并将源数据与目标数据进行比较,以便发现数据错误。
这种数据验证方法具有如下缺点:
高度依赖于测试者理解目标数据和源数据的业务含义,这种要求对很多测试者来说是很难达到的;
该数据验证方法是人工进行的,而不是自动化的,因而费时费力,效率很低;
由于目标数据库和源数据库中的数据通常非常庞大,因此通常不可能验证所有的数据;
由于只能对目标数据库和源数据库中的部分数据进行验证,因此可能无法发现BI解决方案中存在的某些错误。
发明内容
为了克服现有的数据验证方法的缺点,提出了本发明的用于验证数据的方法和装置。
根据本发明的一个方面,提出了一种用于确定源数据库表和目标数据库表之间的数据映射关系的方法,包括:从至少一个源数据库表中的多行数据获取所述主键之外的至少一个其他属性的属性值及其对应的主键值集合,并从目标数据库表中的多行数据获取相应主键之外的特定属性的属性值及其对应的相应主键值集合;判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间是否存在潜在的数据映射关系;如果判断所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间存在潜在的数据映射关系,确定所述至少一个源数据库表的至少一个其他属性与所述目标数据库表的特定属性之间的数据映射关系。
根据本发明的另一个方面,提出了一种用于验证数据的方法,包括:上述用于确定源数据库表和目标数据库表之间的数据映射关系的方法中的各步骤;以及根据所确定的数据映射关系对所述至少一个源数据库表的至少一个其他属性的属性值和/或目标数据库表的特定属性的属性值进行验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110047151.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置