[发明专利]基于分区的数据流处理框架有效
申请号: | 201480061587.5 | 申请日: | 2014-11-11 |
公开(公告)号: | CN105706047B | 公开(公告)日: | 2018-08-31 |
发明(设计)人: | M·M·泰默;G·D·高雷;J·D·杜纳根;G·伯吉斯;熊颖 | 申请(专利权)人: | 亚马逊科技公司 |
主分类号: | G06F7/00 | 分类号: | G06F7/00 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 11038 | 代理人: | 郑宗玉 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分区 数据流 处理 框架 | ||
1.一种处理数据流的方法,其包括:
由一个或多个计算装置执行以下各项:
在多租户流处理服务处从特定的客户端接收有待在指定的处理阶段处在特定的数据流的数据记录上执行特定操作的指示,和用于所述特定操作的结果的特定的输出分配描述符;
至少部分基于所述特定的操作来确定有待配置用于所述指定的处理阶段的工作节点的初始数量;
配置所述初始数量的工作节点的特定的工作节点来:(a)在所述特定的数据流的一个或多个分区的接收的数据记录上执行所述特定的操作,(b)存储进度记录,所述进度记录指示已在所述工作节点处处理过的所述一个或多个分区的部分,以及(c)根据所述特定的输出分配描述符将所述特定的操作的结果传递至一个或多个目的地;以及
响应于所述特定的工作节点正处于不健康的状态中的确定,选择替换工作节点以替换所述特定的工作节点,其中所述替换工作节点访问由所述特定的工作节点存储的进度记录,以识别所述一个或多个分区的至少一个数据记录,在所述一个或多个分区上有待由所述替换工作节点执行所述特定的操作。
2.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
调用与多租户流处理服务相关联的一个或多个编程数据记录检索接口,以接收所述一个或多个分区的数据记录,包括特定的编程数据记录检索接口,所述特定的编程数据记录检索接口包括请求的数据记录的分区内的序列号的指示作为参数。
3.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
实现一个或多个编程接口以使得所述流处理服务的客户端能够指定用于一个或多个数据流的数据记录的处理阶段的有向无环图。
4.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
从多租户流处理服务的接口获取分区策略正在用于所述特定的数据流的指示;以及
至少部分基于所述分区策略来确定所述工作节点的初始数量。
5.如权利要求1所述的方法,其中所述特定的输出分配描述符指示有待根据不同的分区策略将所述特定操作的结果作为不同的数据流的数据记录分配至一个或更多个被配置用于所述不同的数据流的摄取节点。
6.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
响应于在所述处理阶段的不同工作节点处的工作量水平符合触发标准的确定,实现以下各项中的一个或多个:(a)所述特定的数据流的动态重新分区,(b)另一个工作节点到在所述不同的工作节点处先前处理的至少一个分区的分配,(c)被配置用于所述处理阶段的多个工作节点的改变,或者(d)工作节点从一个服务器到另一个服务器的转移。
7.如权利要求1所述的方法,其中将所述特定的工作节点配置来将条目存储在持久性数据资源库中,所述条目代表积累的应用程序状态信息,所述状态信息对应于已在所述特定的工作节点处处理过的多个数据记录,并且将所述特定的工作节点配置成包括进度记录中的所述条目的指示。
8.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
响应于通过客户端库部件的调用的流处理配置请求,在所述多租户流处理服务处注册指定的资源作为用于不同的处理阶段的工作节点。
9.如权利要求1所述的方法,其还包括由所述一个或多个计算装置执行:
在所述多租户流处理服务处从所述特定的客户端接收有待在不同的处理阶段处在不同的数据流的数据记录上执行特定的非幂等操作的指示;以及
配置所述不同处理阶段的第一工作节点,以在接收的数据记录上执行所述非幂等操作。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于亚马逊科技公司,未经亚马逊科技公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201480061587.5/1.html,转载请声明来源钻瓜专利网。