[发明专利]基于关键拓扑结构分析的数据血缘关系解析方法和系统有效
申请号: | 202110889427.1 | 申请日: | 2021-08-04 |
公开(公告)号: | CN113343036B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 夏莹杰;刘瑞峰;蒋萌青 | 申请(专利权)人: | 杭州远眺科技有限公司 |
主分类号: | G06F16/83 | 分类号: | G06F16/83 |
代理公司: | 杭州华知专利事务所(普通合伙) 33235 | 代理人: | 束晓前 |
地址: | 310012 浙江省杭州市余杭区仓*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 关键 拓扑 结构 分析 数据 血缘关系 解析 方法 系统 | ||
1.一种基于关键拓扑结构分析的数据血缘关系解析方法,其特征在于,包括以下步骤:
导出kettle资源库为XML格式的文件,并通过XML事件驱动模型方法对所述文件进行解析,得到XML文件;
为所述XML文件的order结点和transformation结点添加访问事件处理器;
以XML事件驱动模型方法遍历访问所述XML文件,记录所述order结点下的步骤结点及其上下游关系,从而得到包含所有步骤结点的关键步骤拓扑结构;
根据所述关键步骤拓扑结构识别所述transformation结点的关键结点,所述关键结点为含有有效数据血缘关系的步骤结点;
从位于下游的关键结点开始进行数据血缘关系解析,得到血缘关系数据后,将所述血缘关系数据传递给上游的关键结点,直到对所述关键步骤拓扑结构的开始结点完成解析;
所述以XML事件驱动模型方法遍历访问所述XML文件,记录所述order结点下的步骤结点及其上下游关系,从而得到包含所有步骤结点的关键步骤拓扑结构具体为:
以XML事件驱动模型方法遍历访问所述XML文件;
读取所述order结点下的所有的hop子结点,并读取所述hop子结点内包含的from、to结点对,构建哈希表,得到上游结点到下游结点的映射;
根据哈希表整理每一个结点的上下游结点,从而获得包含所有步骤结点的关键步骤拓扑结构;
所述从位于下游的关键结点开始进行数据血缘关系解析,得到血缘关系数据后,将所述血缘关系数据传递给上游的关键结点,直到对述关键步骤拓扑结构的开始结点完成解析具体包括:
对位于下游的关键结点进行数据血缘关系解析,得到血缘关系数据;
将所述血缘关系数据以血缘数据业务对象的方式暂存,并传递给上游的关键结点;
对上游的关键结点进行数据血缘关系解析后,更新血缘数据业务对象;
采取递归处理的方式,直到所述关键步骤拓扑结构的开始结点完成解析。
2.根据权利要求1所述的基于关键拓扑结构分析的数据血缘关系解析方法,其特征在于,进行数据血缘关系分析的方式包括:针对不同类型的关键结点,对应的采用SQL语句解析或XML事件处理的方式进行数据血缘关系解析。
3.根据权利要求2所述的基于关键拓扑结构分析的数据血缘关系解析方法,其特征在于,在所述关键步骤拓扑结构的开始结点完成解析之后,还包括:
在所述关键步骤拓扑结构的开始结点处将完成解析的血缘数据业务对象持久化到数据库中。
4.根据权利要求3所述的基于关键拓扑结构分析的数据血缘关系解析方法,其特征在于,在所述关键步骤拓扑结构的开始结点处将完成解析的血缘数据业务对象持久化到数据库中之前,还包括:
在数据库中新建表血缘关系的表和字段血缘关系的表;
所述表血缘关系的表包括的字段有:上游表的ID、数据库名和表名,下游表的ID、数据库名和表名;
所述字段血缘关系的表包括的字段有:上游表的ID、数据库名、上游字段名、上游字段常量标记,下游表的ID、数据库名、下游字段名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州远眺科技有限公司,未经杭州远眺科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110889427.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:远程维护方法及装置
- 下一篇:对象推荐方法、装置、电子设备及存储介质