[发明专利]基于事件心跳和多版本的Flink流维Join通用处理方法在审

专利信息
申请号: 202011179330.3 申请日: 2020-10-29
公开(公告)号: CN112307023A 公开(公告)日: 2021-02-02
发明(设计)人: 王慧 申请(专利权)人: 杭州微拍堂文化创意有限公司
主分类号: G06F16/22 分类号: G06F16/22;G06F16/21;G06F16/2455;G06F16/27;G06K9/62;H04L12/26
代理公司: 杭州求是专利事务所有限公司 33200 代理人: 陈升华
地址: 310012 浙江省杭*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 事件 心跳 版本 flink 流维 join 通用 处理 方法
【说明书】:

发明公开了一种基于事件心跳和多版本的Flink流维Join通用处理方法,包括:快照服务器接收来自存储端发送的心跳事件,将接收到的心跳事件按不同数据集分类,合并来自相同数据集分区的心跳生成该分区的快照,合并相同数据集所有分区的快照生成数据集的快照;用户在Flink服务上进行流维Join计算,根据不同流维所属的数据集查询该快照,生成水印,Flink服务根据水印触发流计算,生成计算结果,写入存储端。本发明在满足静态维表Join、支持异步、缓存动态维表Join以及动态维表Join以上场景的同时,做到维表在任务间共享;同时回刷数据时可以Join到历史时刻的维表数据,保证回刷数据的准确性。

技术领域

本发明涉及数据实时计算领域,具体涉及一种基于事件心跳和多版本的Flink流维Join通用处理方法。

背景技术

目前,FLink作为最流行的实时计算引擎,已经成为各大厂商在大数据处理领域的主要工具和技术依托。这其中最为通用的使用场景就是流维Join,虽然目前社区给出的流维Join方式可以基本解决静态维表的Join,但是也存在一定缺陷,由于未能实现异步和缓存,会严重影响join的性能,很导致当前算子产生背压。

而实际生产中,更多的需要对动态维表Join的支持,而现有的技术方式若想支持动态维表的Join,业界公开的方案均是通过双流Join来进行模拟,该种方式需要在每个任务中维护全量的维表数据,成本很高,且无法准确找到合适的Join时间点,容易Join到过期的数据,同时对任务升级、数据回刷等场景的支持度很低。因此,目前很难通过现有的技术方案实现生产可用的、结果准确的且高性能流维Join需求。

发明内容

本发明提供了一种基于事件心跳和多版本的Flink流维Join通用处理方法,能够在通用场景下解决上述问题。

为了达到上述目的,本发明的具体实现方案如下:

一种基于事件心跳和多版本的Flink流维Join通用处理方法,包括以下步骤:

1)快照服务器接收来自存储端发送的心跳事件,将接收到的心跳事件按不同数据集分类,合并来自相同数据集分区的心跳生成该分区的快照,合并相同数据集所有分区的快照生成数据集的快照;

2)用户在Flink服务上进行流维Join(连接)计算,根据不同流维所属的数据集查询该快照,生成水印,Flink服务根据水印触发流计算,生成计算结果,写入存储端。

步骤1)中,所述的心跳事件包括:接收来自Kafka上游以及Flink内部Sink端的心跳。

所述的心跳事件包括:心跳、数据集的元信息,数据集的元信息比如数据集的类型、数据集的内部分区。

所述的相同数据集是指产生于同一数据源头的数据集合,相同数据集的心跳实质相同数据来源的心跳。

所述的数据集的快照为可用的完整数据集。

合并来自相同数据集分区的心跳生成该分区的快照,具体包括:

A)首先等待数据集分区的所有数据源的到来,当数据集分区的所有来源的心跳均到来时,即开始进行合并;

B)合并时会生成本次最大可合并心跳,然后在新的线程中进行合并,将所有小于该最大可合并心跳时间的心跳批量写入存储端,生成该分区的快照。

步骤A)中,采用逐层递推算法进行合并,即心跳合并使用了逐层递推算法。

步骤B)中,最大可合并心跳=min(max(各个分区队列的尾部心跳))选取出每个分区队列的尾部的心跳,作为该分区队列的最大心跳值,再从这些各个分区队列的最大心跳值中选取出最小的心跳值,作为整个数据集的最大可合并心跳,该算法可以保证每次尽可能多的取出可合并的心跳,提高了单次心跳合并的心跳数,全局上就减少了心跳合并的批次,提高了心跳合并的效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州微拍堂文化创意有限公司,未经杭州微拍堂文化创意有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011179330.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top