[发明专利]流式计算系统的数据处理方法和装置在审
申请号: | 201910752059.9 | 申请日: | 2019-08-15 |
公开(公告)号: | CN110442383A | 公开(公告)日: | 2019-11-12 |
发明(设计)人: | 谢维柱;邢越 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F9/38 | 分类号: | G06F9/38 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司 11204 | 代理人: | 王达佐;马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算系统 流式 数据分片 上游 方法和装置 处理系统 确认消息 数据结构 位置标识 数据处理 数据清理 下游数据 遍历 删除 返回 | ||
本公开的实施例公开了流式计算系统的数据处理方法和装置。该方法的一具体实施方式包括:获取流式计算系统的下游处理系统返回的确认消息,其中,确认消息包括用于指示下游处理系统已完成处理的数据的标识,在流式计算系统中定位出已完成处理的数据所在的下游数据分片的标识对应的数据结构,并且在数据结构中根据已完成处理的数据所在的上游数据分片的标识查找到对应的上游数据分片;遍历删除查找到的上游数据分片中位置标识不大于已完成处理的数据在上游数据分片中的位置标识的数据。该实施方式实现了流式计算系统中已完成处理的数据的批量清理,提高了流式计算系统的数据清理效率。
技术领域
本公开的实施例涉及计算机技术领域,具体涉及数据处理领域,尤其涉及流式计算系统的数据处理方法和装置。
背景技术
流式计算是一种数据处理的模式,与批量计算相反,其处理数据的模式为发生一次事件就立即进行一次数据处理,而不是将数据缓存起来批量处理。
在计算过程中,流式计算系统不断产生数据进行实时处理,需要及时处理已完成处理的数据以避免造成数据的堆积和丢失。
发明内容
本公开的实施例提出了流式计算系统的数据处理方法和装置。
第一方面,本公开的实施例提供了一种流式计算系统的数据处理方法,该方法包括:获取流式计算系统的下游处理系统返回的确认消息,确认消息包括用于指示下游处理系统已完成处理的数据的标识,已完成处理的数据的标识包括已完成处理的数据所在的下游数据分片的标识、已完成处理的数据所在的上游数据分片的标识以及已完成处理的数据在上游数据分片中的位置标识;在流式计算系统中定位出已完成处理的数据所在的下游数据分片的标识对应的数据结构,并且在数据结构中根据已完成处理的数据所在的上游数据分片的标识查找到对应的上游数据分片;遍历删除查找到的上游数据分片中位置标识不大于已完成处理的数据在上游数据分片中的位置标识的数据。
在一些实施例中,确认消息是按照如下方式生成的:响应于接收到下游处理系统完成数据处理后生成的数据清理请求,基于已完成处理的数据的标识生成确认消息。
在一些实施例中,确认消息是按照如下方式生成的:响应于检测到下游处理系统异常重启,基于下游处理系统中记录的数据处理进度确定已完成处理的数据的标识,基于已完成处理的数据的标识生成确认消息。
在一些实施例中,还包括:响应于检测到流式计算系统发生异常重启,读取预先存储的系统状态并从系统状态的上下文信息中确定出与发生故障时正在处理数据的预设处理单元绑定的下游数据分片的标识,恢复与预设处理单元绑定的下游数据分片标识所标识的数据结构,其中,系统状态记录发生故障时正在处理数据的预设处理单元绑定的下游数据分片的标识。
在一些实施例中,还包括:响应于检测到流式计算系统发生异常重启,对待传入流式计算系统的数据所携带的位置标识与已传入流式计算系统的数据的位置标识进行比较,将待传入流式计算系统的数据中所携带的位置标识大于已传入流式计算系统的数据的位置标识的待传入流式计算系统的数据传入流式计算系统,其中,待传入流式计算系统的数据所携带的位置标识用于指示待传入流式计算系统的数据在其所属数据分片中的位置。
第二方面,本公开的实施例提供了一种流式计算系统的数据处理装置,该装置包括:获取单元,被配置为获取流式计算系统的下游处理系统返回的确认消息,确认消息包括用于指示下游处理系统已完成处理的数据的标识,已完成处理的数据的标识包括已完成处理的数据所在的下游数据分片的标识、已完成处理的数据所在的上游数据分片的标识以及已完成处理的数据在上游数据分片中的位置标识;查找单元,被配置为在流式计算系统中定位出已完成处理的数据所在的下游数据分片的标识对应的数据结构,并且在数据结构中根据已完成处理的数据所在的上游数据分片的标识查找到对应的上游数据分片;删除单元,被配置为遍历删除查找到的上游数据分片中位置标识不大于已完成处理的数据在上游数据分片中的位置标识的数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910752059.9/2.html,转载请声明来源钻瓜专利网。