[发明专利]一种面向数据流处理的弹性可扩展资源管理方法及系统有效

专利信息
申请号: 201310618731.8 申请日: 2013-11-28
公开(公告)号: CN103634394A 公开(公告)日: 2014-03-12
发明(设计)人: 张鹏;熊翠文;徐克付;杜华明;谭建龙 申请(专利权)人: 中国科学院信息工程研究所
主分类号: H04L29/08 分类号: H04L29/08;H04L29/06
代理公司: 北京轻创知识产权代理有限公司 11212 代理人: 杨立
地址: 100093 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 面向 数据流 处理 弹性 扩展 资源管理 方法 系统
【说明书】:

技术领域

发明涉及分布式的数据流处理领域,尤其涉及一种面向数据流处理的弹性可扩展资源管理方法及系统。

背景技术

随着云计算、物联网等技术的兴起,数据正以前所未有的速度在不断地增长和积累,并且越来越多地以大规模、连续的流的形式出现在应用程序中,其中最典型的应用就是监控应用,例如金融市场监控、网络监控、移动对象监控、入侵检查和生态系统监控等等,由于这类应用监控的都是实时数据,所以数据的价值会随着时间的推移而不断减少,因此低延迟处理对这类应用是一个关键需求,为此工业界和学术界开发了很多数据流处理系统,包括斯坦福大学的STREAM、施乐公司的Tapestry、加州大学伯克利分校的Telegraph、布朗大学和麻省理工学院合作的Aurora,以及Yahoo的S4和Apache的Hadoop Online。

上述这些系统从集中式演化到并行分布式,其主要目的就是为了提高数据流处理的性能,降低处理延迟。然而,并行处理这些分布数据源的数据会面临负载均衡和动态扩展的挑战。现有的大部分流处理系统都是静态部署的,也就是说当系统处理一个查询时,一旦这个查询(和算子)被部署后,它们就无法改变。由于数据流本身具有高度可变的性质,这样的静态部署方式是不合适的。然而,大多数情况下,数据流负载的波峰值和波谷值往往相差几个数量级,因此这种差异很可能会影响到并行分布式数据流处理系统的部署方案。也就是说,一个查询的静态部署方案可能无法适应当前的数据流负载。例如,当数据流的负载处在波峰时,已经分配的节点的数量可能比需要的要少,这被称为under-provisioning,而当数据流的负载下降时,已经分配的节点的数量可能高于所需的节点的数量,这被称为over-provisioning。值得注意的是,根据数据流负载的波动,无论是under-provisioning还是over-provisioning,它们都会在不同的时刻影响查询的部署方案。

当前的弹性可扩展资源管理方法只是考虑如何向子集群中添加或者删除节点以适应新的负载,在向新的节点分配负载的过程中没有考虑有状态算子在数据流重配置时的窗口重构和状态重构,因此无法保证添加或者删除节点后有状态算子得到正确结果。

发明内容

本发明所要解决的技术问题是针对现有技术的不足,提供一种面向数据流处理的弹性可扩展资源管理方法及系统,可根据数据流输入负载对处理节点进行动态扩展,保证添加或者删除节点后有状态算子得到正确结果。

本发明解决上述技术问题的技术方案如下:一种面向数据流处理的弹性可扩展资源管理方法,包括如下步骤:

步骤101:子集群的每个执行实例内的本地管理器实时监控其对应的执行实例的资源利用率和输入负载情况,周期性地向给弹性管理器发送监控报告;

步骤102:所述弹性管理器分析所有本地管理器发送来的监控报告,当发现某一子集群中的某个执行实例出现负载问题时,启动窗口重构协议或状态重构协议,向上游相关执行实例发送重配置启动命令;

步骤103:上游相关的执行实例根据重配置启动命令执行相应的重构协议,重新确定原来将要发送给出现负载问题的执行实例的元组的去向;

步骤104:弹性管理器进行负载均衡时,需要和资源管理器进行信息交互,实现对出现负载问题的子集群的执行实例进行分配调度。

在上述技术方案的基础上,本发明还可以做如下改进。

进一步,所述负载均衡策略包括在出现负载问题的子集群中增加执行实例、减少执行实例和动态调整已有执行实例间的输入负载。

进一步,所述重构协议就是将原来要发送到下游子集群中的某些执行实例中的一个或一个以上元组桶中的元组发送到新的执行实例。

进一步,步骤103中上游子集群中相关的执行实例根据重配置启动命令进行重配置的具体步骤为:

步骤201:上游子集群中每个相关执行实例根据重配置启动命令指定需要执行重配置的元组桶,并确定元组桶配置前后对应的旧执行实例和新执行实例;

步骤202:上游子集群中每个相关执行实例向下游子集群中相应的旧执行实例和新执行实例发送携带重配置信息的控制元组;

步骤203:旧执行实例和新执行实例将最晚接收到的控制元组中重配置信息包含的时间戳设置为重配置起始时间戳,进而通过弹性管理器将重配置起始时间戳发送给上游相关执行实例;

步骤204:上游相关执行实例根据接收的重配置起始时间戳配置元组桶的重配置起始时间,配置完成后,向下游旧执行实例和新执行实例发送配置完成信息;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201310618731.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top