[发明专利]数据血缘关系提取方法、装置及电子设备在审

专利信息
申请号: 202110473718.2 申请日: 2021-04-29
公开(公告)号: CN113326261A 公开(公告)日: 2021-08-31
发明(设计)人: 田继龙;王凯 申请(专利权)人: 上海淇馥信息技术有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/2458;G06F16/28;G06F16/215
代理公司: 北京清诚知识产权代理有限公司 11691 代理人: 乔东峰
地址: 201500 上海市崇明区横沙乡富民*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 血缘关系 提取 方法 装置 电子设备
【说明书】:

本公开涉及一种数据血缘关系提取方法、装置、电子设备及计算机可读介质。该方法包括:通过多个方式由数据仓库中提取源数据,所述源数据为表格形式;将所述源数据进行解析生成多个初始表,初始表中存储作业名称、标识、SQL语句、创建时间;对所述多个初始表进行数据清洗处理,生成多个中间表;基于血缘提取函数对所述多个中间表进行血缘提取处理,生成输入表和输出表和其对应的链路关系。本公开涉及的数据血缘关系提取方法、装置、电子设备及计算机可读介质,能够快速的对数据仓库中所有业务数据进行解析,并进行血缘关系的提取,节约了数据仓库的计算资源、减少了重复计算数量,提升了工作效率。

技术领域

本公开涉及计算机信息处理领域,具体而言,涉及一种数据血缘关系提取方法、装置、电子设备及计算机可读介质。

背景技术

在人类社会中,血缘关系是指由婚姻或生育而产生的人际关系。如父母与子女的关系,兄弟姐妹关系,以及由此而派生的其他亲属关系。它是人先天的与生俱来的关系,在人类社会产生之初就已存在,是最早形成的一种社会关系。

大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:1.归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。2.多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。3.可追溯性。数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。4.层次性。数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。数据血缘关系提取方法对于用户分析公司产品和业务,优化用户策略具有极其现实的意义。

在所述背景技术部分公开的上述信息仅用于加强对本公开的背景的理解,因此它可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

有鉴于此,本公开提供一种数据血缘关系提取方法、装置、电子设备及计算机可读介质,能够快速的对数据仓库中所有业务数据进行解析,并进行血缘关系的提取,节约了数据仓库的计算资源、减少了重复计算数量,提升了工作效率。

本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。

根据本公开的一方面,提出一种数据血缘关系提取方法,该方法包括:通过多个方式由数据仓库中提取源数据,所述源数据为表格形式;将所述源数据进行解析生成多个初始表,初始表中存储作业名称、标识、SQL语句、创建时间;对所述多个初始表进行数据清洗处理,生成多个中间表;基于血缘提取函数对所述多个中间表进行血缘提取处理,生成输入表和输出表和其对应的链路关系。

可选地,通过多个方式由数据仓库中提取源数据,包括:由报表开发系统中提取所述源数据;由业务流监控系统中提取所述源数据;基于服务器定时命令提取所述源数据;基于日志收集指令提取所述源数据。

可选地,基于服务器定时命令提取所述源数据,包括:基于服务器的crontab命令提取所述源数据。

可选地,基于日志收集指令提取所述源数据,包括:基于YARN资源管理器中的日志收集指令提取所述源数据。

可选地,将所述源数据进行解析生成多个初始表,包括:提取所述源数据中的SQL语言和表格形式的数据并写入所述多个初始表中。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海淇馥信息技术有限公司,未经上海淇馥信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110473718.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top