[发明专利]数据流拼接的方法、装置、存储介质和终端设备有效
申请号: | 201811222706.7 | 申请日: | 2018-10-19 |
公开(公告)号: | CN111083067B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 程怡;张小虎;石然;高伟康;徐德传 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | H04L47/41 | 分类号: | H04L47/41;H04L47/27;H04L47/10;H04L47/31;H04L61/4511 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据流 拼接 方法 装置 存储 介质 终端设备 | ||
本发明提出一种数据流拼接的方法、装置、存储介质和终端设备,其中,所述方法包括:获取所述订阅后端已接收的来自传输服务器的数据流中的各订阅数据的第一数据产生时间;获取所述数据流中的、所述传输服务器已接收但所述订阅后端尚未接收到的各订阅数据的第二数据产生时间;根据获取到的第一数据产生时间和第二数据产生时间,确定所述数据流的时间戳;以及根据所述数据流的时间戳,决定是否触发所述数据流的数据拼接。采用本发明,可以准确地判断数据延迟,提高数据流拼接的准确度。
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据流拼接的方法、装置、存储介质和终端设备。
背景技术
多数据流拼接是流式计算中的一个应用场景。该技术广泛应用于广告计费、用户行为分析等领域。多数据流拼接的难点之一在于:多个数据流分别来自于不同的产品线、IDC(Internet Data Center,互联网数据中心)机房或地域等,其到达流式计算应用的延迟也不同。
一般来说,多数据流拼接所采用的方案是基于系统时间来对数据流进行拼接,并进行流式计算。假设系统存在计算节点A,系统设置节点A在预设时间段内接收数据,并在此时间段的尾节点处对接收到所有数据进行拼接。如果存在数据延迟,且在此预设时间段内未至达节点A,则在节点A处对数据流进行拼接的过程会漏掉此延迟的数据,导致计算结果不准确。
以信息流广告为例,其包括展现、曝光、点击行为的三种数据流。其采用基于系统时间的数据流拼接方案。如果点击行为的数据流延迟过大,且该点击行为的数据流在触发计算的系统时间之前仍未到达,由于系统无法识别点击行为的数据未到达的原因是延迟还是真实的无点击行为,所以系统仍然依据系统时间触发数据流拼接的,并下发拼接结果。因此,由于存在数据延迟超预期的情况,采用基于系统时间的数据流拼接,会导致流式计算的结果不准确。
为此,现有的方案提出一种基于事件发生时间的多流对齐方式,进行数据流拼接。采用“模糊Low watermark”推测源端进度,Low watermark为时间戳,又称为低水位值。时间戳用于触发计算节点的数据流拼接。模糊Low watermark常见计算方式如下:
模糊Low watermark=max(event time of records)-delay time。
其中,event time of records为事件发生的记录时间。delay time为可配置的数据流延迟的经验值,在可预测的传输延迟时间与可接受的拼接延迟时间之间折中。但是,如果该值配置过小,仍然会导致计算结果不准确。如果配置过大,则会导致计算结果输出给下一节点的延迟增大,时效性低。因此,现有的方案难以在计算结果的正确性与时效性之间取得平衡。
发明内容
本发明实施例提供一种数据流拼接的方法、装置、存储介质和终端设备,以解决或缓解现有技术中的以上一个或多个技术问题。
第一方面,本发明实施例提供了一种数据流拼接的拼方法,用于订阅后端,包括:
获取所述订阅后端已接收的来自传输服务器的数据流中的各订阅数据的第一数据产生时间;
获取所述数据流中的、所述传输服务器已接收但所述订阅后端尚未接收到的各订阅数据的第二数据产生时间;
根据获取到的第一数据产生时间和第二数据产生时间,确定所述数据流的时间戳;以及
根据所述数据流的时间戳,决定是否触发所述数据流的数据拼接。
第二方面,本发明实施例提供一种数据流拼接的装置,用于订阅后端,包括:
送达时间获取模块,用于获取所述订阅后端已接收的来自传输服务器的数据流中的各订阅数据的第一数据产生时间;
未送达时间获取模块,用于获取所述数据流中的、所述传输服务器已接收但所述订阅后端尚未接收到的各订阅数据的第二数据产生时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811222706.7/2.html,转载请声明来源钻瓜专利网。