[发明专利]流计算系统中的数据处理方法、控制节点及流计算系统有效
申请号: | 201410082041.X | 申请日: | 2014-03-06 |
公开(公告)号: | CN103870340B | 公开(公告)日: | 2017-11-07 |
发明(设计)人: | 史云龙;夏命榛;何诚 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 黄志华 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 系统 中的 数据处理 方法 控制 节点 | ||
技术领域
本发明涉及计算机技术领域,尤其涉及一种流计算系统中的数据处理方法、控制节点及流计算系统。
背景技术
当前,数据密集型业务已经得到了广泛的应用,典型的数据密集型业务包括金融服务、网络监控、电信数据管理、Web应用等等。在数据密集型业务中,数据具有量大、快速、时变的特点,因此数据不宜用持久稳定关系建模,而适宜用瞬态数据流建模,由此产生了数据流计算的研究。数据流计算是一种类似流水线式的数据处理模式,数据流计算来自于一个理念:数据的价值随着时间的流逝而降低,所以由事件触发生成数据之后必须尽快地对其进行处理,最好数据产生时便立刻对其进行处理,即发生一个事件就立即进行一次数据处理,而不是将数据缓存起来批量处理。
在流计算系统中,数据流计算是基于流式数据处理模型进行的,如图1所示,业务数据处理逻辑通常需要转化为无回路有向图(Directed Acyclic Graph,DAG;或称为流图)所示的数据处理模式,图中的算子(Operator)承载实际的数据处理操作,数据流(stream)代表各Operator间的数据传输,其中所有Operator可以被分布化执行。
现有技术中,一种设置数据流计算的流式数据处理模型的方案是:物理单元(physical equipment,PE,或者称为执行单元)与逻辑单元(在DAG图中一般用Operator标示,或称为工作节点)为多对一的关系,该方案支持静态配置Operator的并发度,即根据用户静态配置的Operator的并发度,每个Operator在业务执行过程中,根据该并发度调用对应个数的执行单元对业务产生的数据流进行处理。
因为流计算系统通常是分布式的实时流处理系统,所以系统中各种任务的处理情况都是实时变化的。针对实时变化的情况,最初用户设置的并发度很多时候都不是最优的,所以根据最初用户设置的并发度生成的流式数据处理模型并不能适应系统的实时变化,从而会导致流计算系统的资源浪费,数据处理能力受到较大限制。
发明内容
本发明提供一种流计算系统中的数据处理方法、控制节点及流计算系统,以根据业务处理情况实时调整流计算系统中工作节点的并发度,从而提升流计算系统的数据处理能力及资源利用率。
第一方面,本发明提供一种流计算系统中的数据处理方法,所述流计算系统包括控制节点和多个工作节点,该方法包括:
所述控制节点根据配置的各个工作节点的并发度,调用所述多个工作节点中的一个或多个工作节点对数据流进行处理;
所述控制节点收集所述一个或多个工作节点中每个工作节点与其它工作节点之间的数据流量信息和所述一个或多个工作节点中每个工作节点的处理速度信息;
所述控制节点根据收集到的数据流量信息和处理速度信息确定所述一个或多个工作节点中的每个工作节点的优化并发度;
所述控制节点分别确定所述一个或多个工作节点中的每个工作节点的优化并发度与该工作节点的并发度是否相同,如果不相同,则按照该工作节点的优化并发度对该工作节点的并发度进行调整。
结合第一方面,在第一种可能的实现方式中,每个工作节点包含一个或多个执行单元,且当工作节点被调用对数据流进行处理时,具体由工作节点所包含的执行单元处理数据流;工作节点的并发度表示工作节点包含的执行单元的个数;则所述控制节点按照该工作节点的优化并发度对该工作节点的并发度进行调整,包括:
所述控制节点根据该工作节点的优化并发度为该工作节点新增至少一个执行单元,或删除该工作节点的至少一个执行单元,使得该工作节点当前包含的执行单元个数所表征的该工作节点的并发度与该工作节点的优化并发度相同。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述控制节点根据该工作节点的优化并发度为该工作节点新增至少一个执行单元,或删除该工作节点的至少一个执行单元,包括:
当该工作节点的优化并发度大于该工作节点的并发度时:所述控制节点生成用于创建新的执行单元的第一控制指令并发送给该工作节点,使得该工作节点接收到所述第一控制指令后创建至少一个新执行单元,并创建所述新执行单元与其它执行单元的数据通道,其中该工作节点当前包含的执行单元的总个数所表征的该工作节点的并发度与该工作节点的优化并发度相同;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410082041.X/2.html,转载请声明来源钻瓜专利网。