[发明专利]基于列级数据的数据血缘解析方法及装置在审
申请号: | 202110564358.7 | 申请日: | 2021-05-24 |
公开(公告)号: | CN113191139A | 公开(公告)日: | 2021-07-30 |
发明(设计)人: | 尹宏春;童海苹;李文举;王晶 | 申请(专利权)人: | 工银科技有限公司;中国工商银行股份有限公司 |
主分类号: | G06F40/253 | 分类号: | G06F40/253;G06F40/284;G06F16/22;G06F16/26 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王涛;叶明川 |
地址: | 100029 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 级数 数据 血缘 解析 方法 装置 | ||
本发明属于大数据技术领域,本发明提供了一种基于列级数据的数据血缘解析方法及装置,基于列级数据的数据血缘解析方法包括:解析接收的用户数据的Sql语句,以生成词法分析类以及语法分析类;根据所述词法分析类以及语法分析类生成语法树;根据所述语法树生成所述Sql语句的多表之间的映射关系以及多列数据之间的映射关系。本发明可以直观地进行数据回溯及影响分析,从而为数据治理、风险控制等提供支撑;另一方面,本发明依据数据血缘关系,结合数据受众、数据更新量级、数据更新频次等,可给数据价值的评估提供依据,从而提供可解释的数据价值评估。
技术领域
本发明属于大数据技术领域,具体涉及一种基于列级数据的数据血缘解析方法及装置。
背景技术
当前正处于数据信息时代,每时每刻都在产生大量数据。为了发掘海量数据中蕴含的金矿,很多企业引入ETL、数据仓库、数据湖、数据中台等技术(本文统称“数据处理系统”),对企业的数据进行抽取、管理、加工、利用。企业丰富的源端数据抽取到数据处理系统后,通常会对这些数据进行各种加工组合、转换,产生“新”的数据加以利用。
企业丰富的源端数据抽取到数据处理系统后,通常会对这些数据进行各种加工组合、转换,产生“新”的数据加以利用。任何数据,从产生、加工处理、融合流转,到最终消亡,数据之间自然会形成一种关系,称之为数据的血缘关系。数据血缘,即一个表的生成过程链路(它依赖了哪些表,怎么生成的,经过了哪些过程和阶段);以及它依赖的表的生成过程链路。
任何数据,从产生、处理加工、融合流转,到最终消亡,数据之间自然会形成一种关系,称之为数据的血缘关系。数据血缘,即一个表的生成过程链路(它依赖了哪些表,怎么生成的,经过了哪些过程和阶段);以及它依赖的表的生成过程链路。例如:表A、表B的数据经过ETL处理生成了表C数据,则可以说,表A、表B与表C之间存在血缘关系。
在下游业务应用数据的过程中,常常需要对数据成因、来源等进行跟踪回溯;或者分析某个表在系统中的“热度指数”(被引用次数)、“影响指数”(表变动时,哪些下游表会受到影响)等,这都离不开对表与表、列与列之间数据流转关系的探索,即“数据血缘分析”。
在没有工具之前,数据血缘关系只能依靠手工维护,一旦脚本发生变化,手工维护遗漏或不及时的话,就会造成关系不准确。
随着业务的丰富,表的数量成指数级增加,加工逻辑越来越多,逻辑复杂性越来越强,链路越来越长,依靠手工维护、人工分析血缘的方式局限性越来越明显。提供一个便捷、可靠、易用的数据血缘分析系统价值不言而喻。
现有技术中,数据血缘分析各有侧重,有的侧重SQL解析;有的侧重工具特征;有的侧重可视化;有的侧重处理节点类型特点;有的侧重血缘本身的解析而没有考虑完整的周边支持体系;多数数据血缘分析工具只到表级别,均没有提到了列级别数据血缘分析,且未见涵盖列级计算逻辑。
发明内容
本发明属于大数据技术领域,其所提供的基于列级数据的数据血缘解析方法及装置,可以直观地进行数据回溯及影响分析,从而为数据治理、风险控制等提供支撑;另一方面,本发明依据数据血缘关系,结合数据受众、数据更新量级、数据更新频次等,可给数据价值的评估提供依据,从而提供“可解释的数据价值评估”。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明提供一种基于列级数据的数据血缘解析方法,包括:
解析接收的用户数据的Sql语句,以生成词法分析类以及语法分析类;
根据所述词法分析类以及语法分析类生成语法树;
根据所述语法树生成所述Sql语句的多表之间的映射关系以及多列数据之间的映射关系。
一实施例中,所述根据所述词法分析类以及语法分析类生成语法树,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于工银科技有限公司;中国工商银行股份有限公司,未经工银科技有限公司;中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110564358.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置