[发明专利]基于关键拓扑结构分析的数据血缘关系解析方法和系统有效
申请号: | 202110889427.1 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113343036B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 夏莹杰;刘瑞峰;蒋萌青 | 申请(专利权)人: | 杭州远眺科技有限公司 |
主分类号: | G06F16/83 | 分类号: | G06F16/83 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310012 浙江省杭州市余杭区仓*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 拓扑 结构 分析 数据 血缘关系 解析 方法 系统 | ||
本发明公开了一种基于关键拓扑结构分析的数据血缘关系解析方法和系统,其中方法利用XML事件驱动模型方法对kettle资源库导出XML文件进行解析;记录kettle资源库XML文件中步骤结点的上下游结点,构建包含所有步骤结点的关键步骤拓扑结构;从关键步骤拓扑结构中识别关键结点并对对应的步骤进行血缘解析,采用递归处理关键步骤拓扑结构上的各个步骤,在血缘关系解析过程中,不断传递解析的血缘关系数据给关键拓扑结构中的上游结点,直到对开始结点完成解析,从而完成kettle数据血缘关系的解析过程。本发明方法方便对kettle数据血缘关系进行解析,对外部框架依赖较少,而且更加高效、灵活。
技术领域
本发明涉及数据血缘关系解析领域,更具体的,涉及一种基于关键拓扑结构分析的数据血缘关系解析方法和系统。
背景技术
数据在产生、加工融合、流转流通,到最终消亡的过程中,会自然地形成一种关系,借鉴人类社会中类似的关系来表达数据之间的这种关系,称之为数据的血缘关系。
数据血缘是元数据的组成部分之一。它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。数据血缘可用于分析上游数据发生变化会给下游数据带来哪些影响;可在下游数据发生变化时追踪上游问题的源头。目前实现数据血缘的方法主要有以下两种:
第一种是在Hive数据仓库中,使用Hive提供的原生API如LineageInfoAPI来解析当前Hive任务的数据血缘关系。这种方案在Hadoop生态中的数据治理组件ApacheAtlas中有着广泛的使用,使用简单、解析准确,数据血缘的粒度可达到列级血缘。然而该方法使得血缘解析功能与Hive组件具有强耦合,无法在任意时刻解析不同的SQL方言,因此对于不使用Hive和处理不同SQL方言的环境无法适用。
第二种是借助数据库厂商或公司的支持,使用专门提供的SQL解析API,或自主开发解析SQL语句的库,对SQL语句进行词法和语法分析,转成AST抽象语法树,然后递归遍历和分析抽象语法树中的结点获取血缘关系。这种方案的适用性更强,然而增加了实现血缘功能的难度。
然而,以上的方案只适用在获取给定SQL语句进行血缘解析的场景中。在大数据场景中,执行数据仓库执行抽取-转换-加载(Extract, Transform, and Load, ETL)作业时,无法从一个更高的层次上来解析作业内部的数据血缘关系。因此,如何提供一种数据血缘关系解析方法,用于实现在抽取-转换-加载(ETL)作业中,尤其是在开源的ETL工具——kettle中的数据血缘关系解析,是本领域技术人员亟待解决的技术问题。
发明内容
鉴于上述问题,本发明的目的是提供一种基于关键拓扑结构分析的kettle数据血缘关系解析方法和系统,用于实现在抽取-转换-加载(ETL)作业中,尤其是在开源的ETL工具——kettle中的数据血缘关系解析。
本发明第一方面提供了一种基于关键拓扑结构分析的数据血缘关系解析方法,包括以下步骤:
导出kettle资源库为XML格式的文件,并通过XML事件驱动模型方法对所述文件进行解析,得到XML文件;
为所述XML文件的order结点和transformation结点添加访问事件处理器;
以XML事件驱动模型方法遍历访问所述XML文件,记录所述order结点下的步骤结点及其上下游关系,从而得到包含所有步骤结点的关键步骤拓扑结构;
根据所述关键步骤拓扑结构识别所述transformation结点的关键结点,所述关键结点为含有有效数据血缘关系的步骤结点;
从位于下游的关键结点开始进行数据血缘关系解析,得到血缘关系数据后,将所述血缘关系数据传递给上游的关键结点,直到对所述关键步骤拓扑结构的开始结点完成解析。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州远眺科技有限公司,未经杭州远眺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110889427.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:远程维护方法及装置
- 下一篇:对象推荐方法、装置、电子设备及存储介质