[发明专利]流式计算中迟滞数据的处理系统、设备以及方法在审
申请号: | 202010450024.2 | 申请日: | 2020-05-25 |
公开(公告)号: | CN111680065A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 韩佩利;施小江 | 申请(专利权)人: | 泰康保险集团股份有限公司 |
主分类号: | G06F16/2455 | 分类号: | G06F16/2455 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 王天尧;汤在彦 |
地址: | 100031 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 迟滞 数据 处理 系统 设备 以及 方法 | ||
本发明提供一种流式计算中迟滞数据的处理系统、设备以及方法,涉及数据处理技术领域,该方法包括:当第一级水位线的时间戳到达时,第一级水位线模块触发算子处理模块以对第一迟滞数据进行处理得到第一计算结果信息,并将第一计算结果保存至结果保存模块;当第二级水位线的时间戳到达时,第二级水位线模块触发算子处理模块以对第二迟滞数据进行处理得到第二计算结果信息,并将第二计算结果保存至结果保存模块;结果保存模块对第一计算结果以及第二计算结果进行数据整合后输出。本发明解决了在Flink中针对Watermark到达之后的迟滞数据进行再次进行处理的问题。
技术领域
本发明关于数据处理技术领域,特别是关于流式系统中数据的处理技术,具体的讲是一种流式计算中迟滞数据的处理方法、流式计算中迟滞数据的处理系统、计算机设备以及计算机可读存储介质。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
在线数据分析平台中,一般将数据写入kafka消息队列。为了能实时使用这些数据,采取用Flink进行数据的流式实时处理和计算。在Flink中有三种事件,分别是事件事件、处理事件和提取事件。由于事件时间只和消息有关,最为准确,所以结合业务场景使用事件时间(EnventTime)作为每条消息数据的准确时间。
Event Time是最能反映数据时间属性的,但是Event Time可能会发生迟滞,即数据延迟或乱序,Flink系统本身只能逐个处理数据。为了能处理迟滞数据,现有技术采用了Flink原生自带的水位线机制。水位线(Watermark)是一个对Event Time的标识,内容方面Watermark是个时间戳,一个带有时间戳X的Watermark到达,相当于告诉Flink系统,任何Event Time小于X的数据都已到达。此时Flink才会触发计算,而在Watermark没有到来之前,Flink不会发生计算,只会收集指定的时间窗口的数据,数据在这个时间窗口内的可以乱序到达。虽然Flink提供的水位线机制可以在Watermark没有到来之前,时间窗口内的数据都可以乱序到达,解决了一部分的数据延迟和乱序引起的数据计算问题,但是当Watermark到达之后,迟滞数据如何处理并没有一个很好的解决方式。
在Flink原生设计中,针对Watermark到达之后的迟滞数据有两种方式,第一种是直接丢弃,即认为Watermark之后的迟滞数据都没有价值,不再进行计算;第二种是在编写代码的时候设置一个固定的允许的延迟时间,只要迟滞数据的Event Time在允许延迟的时间范围内,可以再次触发一次Flink计算,再次计算出一个结果。但是这两种处理方式均有自己的缺点:丢弃的方法太为简单粗暴,会造成一部分数据的丢失;设置固定的允许延迟时间的方式固然能解决一部分迟滞数据,但是允许延迟时间是固定的,不够灵活,延迟的这些数据触发的计算是新的结果,并不能和之前触发计算的结果产生关联。
因此,如何提供一种新的方案,其能够解决上述技术问题是本领域亟待解决的技术难题。
发明内容
有鉴于此,本发明提供了一种流式计算中迟滞数据的处理方法、流式计算中迟滞数据的处理系统、计算机设备以及计算机可读存储介质,引入了二级水位线,在Flink中针对Watermark到达之后的迟滞数据再次进行处理,又可以将迟滞数据的第二次计算结果补偿到首次触发的结果中进行统一输出,解决了在Flink中针对Watermark到达之后的迟滞数据进行再次进行处理的问题。
为了实现上述目的,提供了一种流式计算中迟滞数据的处理系统,系统包括第一级水位线模块、第二级水位线模块、算子处理模块以及结果保存模块;
其中,第一级水位线模块,用于当第一级水位线的时间戳到达时,触发算子处理模块以对第一迟滞数据进行处理得到第一计算结果信息,并将第一计算结果保存至结果保存模块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于泰康保险集团股份有限公司,未经泰康保险集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010450024.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置