[发明专利]流式计算系统中计算节点的故障处理有效
申请号: | 201710035881.4 | 申请日: | 2017-01-17 |
公开(公告)号: | CN106874133B | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 石然;程怡;张建伟;高伟康 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 杨泽;刘芳 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 系统 节点 故障 处理 | ||
1.一种用于流式计算系统中的故障处理方法,其中,在一个计算节点,该方法包括以下步骤:
-记录来自上游计算节点的各原始数据的到达顺序;
-将所述各原始数据按照预定的周期进行持久化操作;
-当发生故障而重启后,按照所记录的到达顺序从经持久化操作的原始数据和/或所述上游计算节点恢复内存中的待计算数据,并将所恢复的待计算数据按照其之前的到达顺序进行重放和计算;
-将每条计算完毕的结果数据按照故障前上一持久化操作周期的结果数据的偏移量继续编码并发送至下一节点;
其中,所述按照所记录的到达顺序从经持久化操作的原始数据和/或所述上游计算节点恢复内存中的待计算数据,包括:首先获取上一持久化操作周期的原始数据,并比较所获取的原始数据的到达顺序与所记录的所述各原始数据的到达顺序,以确定是否尚有丢失数据,如是,从所述丢失数据所来自的上游计算节点获取所述丢失数据,从而恢复故障前内存中的待计算数据。
2.根据权利要求1所述的方法,其中,根据故障前上一持久化操作周期的结果数据的偏移量进度信息,确定重启后第一条计算完毕的结果数据的编码偏移量。
3.根据权利要求1至2中任一项所述的方法,其中,所述各原始数据的持久化操作通过checkpoint机制来按照预定的周期执行。
4.根据权利要求3所述的方法,其中,所述各原始数据通过checkpoint机制被存储于外部的分布式存储系统,从而实现持久化操作。
5.根据权利要求3所述的方法,其中,当发生故障而重启后,首先从checkpoint点恢复上一周期的原始数据,并比较所获取的原始数据的到达顺序与所记录的所述各原始数据的到达顺序,以确定是否尚有丢失数据,如是,从所述丢失数据所来自的上游计算节点获取所述丢失数据,从而恢复故障前内存中的待计算数据。
6.根据权利要求3所述的方法,其中,当发生故障而重启后,从checkpoint点恢复上一周期的结果数据的偏移量进度信息。
7.根据权利要求1所述的方法,其中,所述下一节点包括当前计算节点的下级计算节点或外部传输系统。
8.一种用于流式计算系统中的故障处理装置,其中,故障处理装置被布置于所述流式计算系统中的一个计算节点中,该故障处理装置包括:
用于记录来自上游计算节点的各原始数据的到达顺序的装置;
用于将所述各原始数据按照预定的周期进行持久化操作的装置;
用于当发生故障而重启后,按照所记录的到达顺序从经持久化操作的原始数据和/或所述上游计算节点恢复内存中的待计算数据,并将所恢复的待计算数据按照其之前的到达顺序进行重放和计算的装置;
用于将每条计算完毕的结果数据按照故障前上一持久化操作周期的结果数据的偏移量继续编码并发送至下一节点的装置;
其中,所述按照所记录的到达顺序从经持久化操作的原始数据和/或所述上游计算节点恢复内存中的待计算数据,包括:首先获取上一持久化操作周期的原始数据,并比较所获取的原始数据的到达顺序与所记录的所述各原始数据的到达顺序,以确定是否尚有丢失数据,如是,从所述丢失数据所来自的上游计算节点获取所述丢失数据,从而恢复故障前内存中的待计算数据。
9.根据权利要求8所述的装置,其中,根据故障前上一持久化操作周期的结果数据的偏移量进度信息,确定重启后第一条计算完毕的结果数据的编码偏移量。
10.根据权利要求8至9中任一项所述的装置,其中,所述各原始数据的持久化操作通过checkpoint机制来按照预定的周期执行。
11.根据权利要求10所述的装置,其中,所述各原始数据通过checkpoint机制被存储于外部的分布式存储系统,从而实现持久化操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710035881.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种异常处理方法和装置
- 下一篇:工单类型的处理方法、装置及系统