[发明专利]一种基于数据湖的时间线获取方法、装置、执行节点在审
申请号: | 202210603049.0 | 申请日: | 2022-05-30 |
公开(公告)号: | CN114968936A | 公开(公告)日: | 2022-08-30 |
发明(设计)人: | 喻兆靖;郭俊;杨诗旻;罗旋 | 申请(专利权)人: | 北京火山引擎科技有限公司 |
主分类号: | G06F16/16 | 分类号: | G06F16/16;G06F16/172 |
代理公司: | 北京信远达知识产权代理有限公司 11304 | 代理人: | 冯柳伟 |
地址: | 100190 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 数据 时间 获取 方法 装置 执行 节点 | ||
本申请公开了一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品,该方法包括:在该执行节点确定达到时间线拉取条件时,先由该执行节点创建第一元数据客户端,并在该第一元数据客户端中创建时间线视图;再由该执行节点利用该时间线视图从管理节点的内置元数据服务中获取待使用时间线,以使该待使用时间线能够表示出该管理节点中的至少一个事务,以便后续该执行节点能够从该待使用时间线中获知需要由其执行的事务,如此能够实现借助该执行节点辅助该管理节点实现写入任务的目的,从而能够有效地提高借助该执行节点辅助管理节点所实现的写入任务的执行效果。
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品。
背景技术
数据湖(DataLake)是指使用大型二进制对象或者文件格式存储数据的系统;而且数据湖被用于统一存储数据。
数据湖框架(Apache Hudi,简称Hudi)是一个流式数据湖平台;而且Hudi可以通过多种工具(例如,Spark、Flink等)接入大量数据(例如,关系型数据库、日志、消息队列的数据等)进行数据存储。
然而,因一些Hudi方案(例如,基于Flink的hudi等)存在缺陷,导致利用这些Hudi方案实现的写入任务的执行效果比较差。
发明内容
为了解决上述技术问题,本申请提供了一种基于数据湖的时间线获取方法、装置、执行节点、电子设备、计算机可读介质、计算机程序产品,能够有效地提高写入任务的执行效果。
为了实现上述目的,本申请实施例提供的技术方案如下:
本申请实施例提供一种基于数据湖的时间线获取方法,应用于基于数据湖的执行节点,所述方法包括:
在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。
在一种可能的实施方式中,所述至少一个事务包括至少一个处于未完成状态的事务。
在一种可能的实施方式中,所述内置元数据服务用于存储所述管理节点中实时的时间线。
在一种可能的实施方式中,所述待使用时间线的更新过程,包括:
在达到时间线更新条件时,所述管理节点创建第二元数据客户端;
所述管理节点利用所述第二元数据客户端从元数据系统中拉取元数据时间线;
所述管理节点利用所述元数据时间线,更新所述内置元数据服务中存储的所述待使用时间线。
在一种可能的实施方式中,所述方法还包括:
在所述待使用时间线表示待处理事务已创建时,执行所述待处理事务。
本申请实施例还提供了一种基于数据湖的时间线获取装置,包括:
创建单元,用于在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
获取单元,用于利用所述时间线视图从管理节点的内置元数据服务中获取待使用时间线;其中,所述内置元数据服务中存储有所述待使用时间线;所述待使用时间线用于记录所述管理节点中的至少一个事务。
本申请实施例还提供了一种基于数据湖的执行节点,所述执行节点,用于在达到时间线拉取条件时,创建第一元数据客户端,并在所述第一元数据客户端中创建时间线视图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京火山引擎科技有限公司,未经北京火山引擎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210603049.0/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置