[发明专利]实现Trino Iceberg连接中的Update功能的方法在审
申请号: | 202210150032.4 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114579589A | 公开(公告)日: | 2022-06-03 |
发明(设计)人: | 兰洋 | 申请(专利权)人: | 杭州玳数科技有限公司 |
主分类号: | G06F16/23 | 分类号: | G06F16/23;G06F16/242 |
代理公司: | 常州佰业腾飞专利代理事务所(普通合伙) 32231 | 代理人: | 刘松 |
地址: | 311121 浙江省杭州市余杭区仓前街道余杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实现 trino iceberg 连接 中的 update 功能 方法 | ||
本发明提供一种实现Trino Iceberg连接中的Update功能的方法,包括以下步骤:通过Trino Engine Sql执行引擎接收并解析用户提交的Update Sql任务,以获取可执行计划;通过Trino提供的UpdatablePageSource软件编程接口,来支持对Iceberg元数据以及底层数据的Update功能逻辑;根据Update功能逻辑,通过Iceberg提供的RowDelta应用编程接口对Iceberg底层数据进行数据UPDATE操作。本发明可以在通过Trino对接Iceberg数据湖时支持Update功能,使用户能方便高效的完成更多的批处理场景。
技术领域
本发明涉及数据处理技术领域,具体涉及一种实现Trino Iceberg连接中的Update功能的方法、一种计算机设备和一种非临时性计算机可读存储介质。
背景技术
Iceberg是一种用于大型分析数据集的开放表格格式,它使用一种类似于SQL(Structured Query Language,结构化查询语言)表的高性能表格式,可以将表添加到Spark(一种专为大规模数据处理而设计的快速通用的计算引擎)、Trino(一种用于大数据分析的快速分布式SQL查询引擎)、Flink(一种开源流处理框架)和Hive(一种数据仓库工具)等计算引擎中并支持对该表格式的增删查改等操作。
目前,目前能支持Iceberg表的UPDATE操作的计算引擎只有Spark以及Flink,从而在实时、离线计算分析上提供了更多的计算场景,满足更多的业务需求,而Trino不支持对Iceberg表的UPDATE操作。
Trino是一款基于内存的PB级分布式SQL计算引擎,它通过Connector(连接器)SPI(Serial Peripheral Interface,串行外设接口)实现了计算层和存储层的低耦合,使其支持对各种数据源的访问与操作,并具有跨源查询的特性。Iceberg作为数据湖方案之一,支持Iceberg Connector的Update语法是Trino在对接数据湖方案中的重要一环,而相关技术中,Trino不支持对Iceberg表的UPDATE操作,从而导致Trino对接Iceberg数据时无法实现数据的批量更新功能。
发明内容
为解决上述技术问题,本发明的第一个目的在于提出一种实现Trino Iceberg连接中的Update功能的方法。
本发明的第二个目的在于提出一种计算机设备。
本发明的第三个目的在于提出一种非临时性计算机可读存储介质。
本发明采用的技术方案如下:
本发明第一方面的实施例提出了一种实现Trino Iceberg连接中的Update功能的方法,包括以下步骤:通过Trino Engine Sql执行引擎接收并解析用户提交的Update Sql任务,以获取可执行计划;通过Trino提供的UpdatablePageSource软件编程接口,来支持对Iceberg元数据以及底层数据的Update功能逻辑;根据所述Update功能逻辑,通过Iceberg提供的RowDelta应用编程接口,对Iceberg底层数据进行数据UPDATE操作。
本发明上述提出的实现Trino Iceberg连接中的Update功能的方法还可以具有如下附加技术特征:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州玳数科技有限公司,未经杭州玳数科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210150032.4/2.html,转载请声明来源钻瓜专利网。