[发明专利]流式计算的增量持久化方法、装置及存储介质有效
申请号: | 201811388343.4 | 申请日: | 2018-11-21 |
公开(公告)号: | CN111211993B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 程怡;石然;高伟康 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | H04L47/38 | 分类号: | H04L47/38;H04L47/62;H04L47/10;H04L47/41;G06F11/14 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 增量 持久 方法 装置 存储 介质 | ||
本发明提出一种流式计算的增量持久化方法及其装置、计算机程序产品、存储介质。其中,流式计算由多个节点进行,方法包括:获取当前节点的新增数据,并将新增数据根据操作类型分为多个数据单元,将多个数据单元存入存储系统。根据操作类型对存入存储系统的多个数据单元进行合并,以获得当前节点的持久化数据。由此,本发明实施例实现了在将数据存入存储系统后,将合并后的存储数据作为持久化数据,从而减少了存储系统中持久化数据的数据总量,降低了对系统存储资源的消耗,解决了现有技术中持久化数据总量过大的技术问题。
技术领域
本发明涉及分布式计算技术领域,尤其涉及一种流式计算的增量持久化方法及其装置。
背景技术
流式计算是一种实时分布式计算方法,广泛应用于信息流、广告、网页建库、地图等领域。但随着计算复杂度的增加,流式计算系统对计算结果的要求越来越高,需要将历史计算结果进行持久化来保证流式计算计算结果的准确度。
相关技术中,对流式计算结果采用全量持久化机制。然而该机制的持久化过程需要将之前产生的全部数据进行存储。由此可以看出目前的全量持久化机制对于系统资源的消耗极大,对流式计算的实时性能造成影响。为此,研究人员又提出了增量持久化机制,现有的增量持久化机制虽然在持久化过程中只对新增数据进行存储,减少了每一次存储过程中对系统的资源消耗,但是数据存储总量会随着新增数据的增加而不断增加,依然会消耗大量的系统存储资源。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种流式计算的增量持久化方法,以实现在数据恢复时,使用合并后的持久化数据进行计算状态恢复,减少了计算状态恢复时的系统工作量,降低了对系统资源的消耗。
本发明的第二个目的在于提出一种流式计算的增量持久化装置。
本发明的第三个目的在于提出一种计算机程序产品。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
为达上述目的,本发明第一方面实施例提出了一种流式计算的增量持久化方法,包括:获取当前节点的新增数据,并将所述新增数据根据操作类型分为多个数据单元;将所述多个数据单元存入存储系统;以及根据所述操作类型对存入所述存储系统的所述多个数据单元进行合并,以获得所述当前节点的持久化数据。
和现有技术相比,本发明实施例在对新增数据进行存储时,将新增数据根据操作类型分为多个数据单元,将新增数据存入存储系统后,根据不同的操作类型对数据单元进行合并,减少了当前节点需要存储的持久化数据。
另外,本发明实施例的流式计算的增量持久化方法,还具有如下附加的技术特征:
可选地,在所述获得所述当前节点的持久化数据之后,还包括:根据所述当前节点的持久化数据,对所述当前节点的计算状态进行恢复。
可选地,所述新增数据包括当前节点的输出结果数据、当前节点的用户状态修改数据、定时器数据中的一种或者多种。
可选地,所述将所述多个数据单元存入存储系统,包括:将所述多个数据单元打包为数据块;根据预设的传输大小阈值和传输时间阈值将多个所述数据块打包为数据组;将所述数据组存入所述存储系统中当前节点所对应的服务器。
可选地,所述将所述数据组存入所述存储系统中当前节点所对应的服务器,包括:获取所述数据组中所述数据单元的数据标识;根据所述数据标识将所述数据组存入当前节点所对应的服务器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811388343.4/2.html,转载请声明来源钻瓜专利网。