[发明专利]元数据处理方法及设备有效
申请号: | 201110235136.7 | 申请日: | 2011-08-16 |
公开(公告)号: | CN102279886A | 公开(公告)日: | 2011-12-14 |
发明(设计)人: | 杨大鹏;李炅宇;王彦博;靳军;赵俊 | 申请(专利权)人: | 中国民生银行股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 马爽 |
地址: | 100031 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据处理 方法 设备 | ||
技术领域
本发明涉及元数据处理技术,尤其涉及一种元数据处理方法及设备。
背景技术
随着办公自动化的快速发展,信息已成为现代企业的重要资源,是企业运用科学管理、决策分析的基础,用于实现独立数据管理的数据仓库也得到了极为广泛的应用。
数据抽取、转换和加载(Extraction-Transformation-Loading,ETL)是构建数据仓库的重要环节,其负责将分布的、异构数据源中的数据,如关系数据和平面数据文件等,抽取到临时中间层后进行清洗、转换和加载,并整合到数据仓库中,成为联机分析处理和数据挖掘的基础。ETL过程采用元数据方法进行集中管理。其中,元数据是描述数据的数据(data about data),其对于ETL的集中表现为:定义数据源的位置及数据源的属性、确定从源数据到目标数据的对应规则、确定相关的业务逻辑和在数据实际加载前的其他必要的准备工作等。
现有技术中,在基于数据仓库实现数据管理时,需通过在进行ETL之前所设定的元数据来获知构建数据仓库时的数据流向,从而建立起数据关联,避免产生数据孤岛或信息盲区。但由于在实际的ETL过程中,可能由于一些原因使得实际数据流向与预设数据流向存在差异。此时,若仍基于预先设定的元数据来进行数据管理,便无法准确获知数据之间的流向关系,从而无法对数据仓库进行可靠、有效的管理。
发明内容
针对上述缺陷,本发明提供一种元数据处理方法及设备,用以实现获取能够反映真实数据流向的元数据。
根据本发明的一方面,提供一种元数据处理方法,包括:
元数据处理设备接收用户发送的元数据处理指令,响应所述元数据处理指令获取数据抽取、转换和加载ETL执行日志,并从数据仓库获取第一数据库定义语言DDL命令,其中所述第一DDL命令用于对所述ETL执行日志包括的数据对象进行节点定义;
所述元数据处理设备对所获取的ETL执行日志进行解析,以获取第二DDL命令和数据操作语言DML命令,其中所述第二DDL命令用于对所述ETL执行日志包括的临时对象进行节点定义,所述DML命令用于记录在ETL执行过程中所述数据对象和/或所述临时对象的转换操作;
所述元数据处理设备通过解析所述第一DDL命令、所述第二DDL命令和所述DML命令获取用于表示所述数据对象和所述临时对象的数据流向的元数据,并向所述用户反馈所述元数据。
根据本发明的另一方面,还提供一种元数据处理设备,其特征在于,包括:
获取模块,用于获取ETL执行日志,并从数据仓库获取第一DDL命令,其中所述第一DDL命令用于对所述ETL执行日志包括的数据对象进行节点定义;
日志解析模块,用于对所获取的ETL执行日志进行解析,以获取第二DDL命令和数据操作语言DML命令,其中所述第二DDL命令用于对所述ETL执行日志包括的临时对象进行节点定义,所述DML命令用于记录在ETL执行过程中所述数据对象和/或所述临时对象的转换操作;
元数据获取模块,用于通过解析所述第一DDL命令、所述第二DDL命令和所述DML命令获取用于表示所述数据对象和所述临时对象的数据流向的元数据。
根据本发明的元数据处理方法及设备,由于是通过对真实运行产生的ETL执行日志进行DDL解析和DML解析来获取对象之间的流向关系,所以所获得的表征对象之间的流向关系的元数据与真实执行情况一致,能够有效、准确地反映出ETL执行过程中的真实数据流向,从而可基于该元数据进行可靠的数据相关性分析及系统性能优化等。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明元数据处理方法的流程示意图。
图2为应用本发明元数据处理方法的数据仓库系统架构图。
图3为本发明元数据处理设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明元数据处理方法的流程示意图。如图1所示,该元数据处理方法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国民生银行股份有限公司,未经中国民生银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110235136.7/2.html,转载请声明来源钻瓜专利网。