[发明专利]流式计算系统及其调度方法和装置有效
申请号: | 201510150536.6 | 申请日: | 2015-03-31 |
公开(公告)号: | CN104683488B | 公开(公告)日: | 2018-03-30 |
发明(设计)人: | 吴锡;谭待 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 系统 及其 调度 方法 装置 | ||
技术领域
本申请涉及计算机技术领域,具体涉及流式计算系统及其调度方法和装置。
背景技术
随着互联网的飞速发展,越来越多的计算任务变得越来越重型,策略逻辑逐渐发展得越来越庞大、复杂。因此,出现了将原来一个计算任务或程序按照策略逻辑拆分成多个算子,通过有向无环图(Directed Acyclic Graph,DAG)来组织其数据流向。在数学和计算机科学中,DAG是不具有有向环的有向图。换言之,DAG由顶点和有向边组成,每条边将一个顶点连接到另一个顶点,从而无法从任意顶点v出发经过若干条边最终回到该顶点v。在流式计算中,DAG模型主要由算子(operator)和流(stream)构成,其中算子(operator)是承载业务逻辑的数据处理单元,可被流式计算系统分布式调度执行的最小单元,而流(stream)则是算子间交互的数据。
近些年随着大数据的广泛应用,越来越多的计算任务变得越来越庞大。例如,百度的网页库减索引任务被分为多个算子,每个算子需要超过5G的内存,每次计算的规模达到20000以上的计算节点。在百度里,诸如图片特征计算、智能解析计算等类似这样的海量的计算任务也不算少数。
另一方面,单个互联网数据中心(Internet Data Center,IDC)的计算节点数量有限,无法满足一次计算任务的全部节点需求,因此必然需要将计算任务分布到位于不同地域的多个IDC中。
现在业界已经存在很多开源的流式计算系统能满足DAG数据流计算的需求,诸如twitter使用的Storm,Yahoo!的S4等。但是,这些系统侧重于实时性问题,也即更看重延迟。然而,DAG模型中算子之间有很多数据交互,跨地域IDC间的带宽又非常昂贵。现有的流式计算系统没有专门考虑算子的合理分布,导致跨地域IDC间的交互较多,增加了通信成本和跨地域通信的不稳定因素。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种能够合理的考虑计算节点按地域分布的方案,以大大减少跨地域通信所带来的增加的通信成本和不稳定因素。为了实现上述一个或多个目的,本申请提供了一种流式计算系统及其调度方法和装置。
第一方面,提供了一种流式计算系统。该流式计算系统包括:一个或多个位于不同地域的网络超核;一个或多个位于不同地域的数据中心,其中每个数据中心连接到相应的网络超核,数据中心之间经由网络超核进行通信;一个或多个计算节点,其中每个计算节点位于相应的数据中心并归入该数据中心所连接的网络超核,每个计算节点用作计算任务的有向无环图DAG模型中的一种算子。归入同一网络超核的计算节点被分为若干组,至少一个组包含DAG模型中所需的所有类型的算子,属于同一组的计算节点之间的通信优先级高于属于不同组但归入同一网络超核的计算节点之间的通信优先级,后者高于归入不同网络超核的计算节点之间的通信优先级。
第二方面,提供了一种流式计算系统的调度方法。该方法包括:根据计算节点所在的数据中心将该计算节点归入数据中心所连接的网络超核;根据归入同一网络超核的已有计算节点的算子类型分布,确定该计算节点的算子类型;以及根据同一网络超核下的计算节点分组情况,确定该计算节点归入的组;其中,属于同一组的计算节点之间的通信优先级高于属于不同组但归入同一网络超核的计算节点之间的通信优先级,后者高于归入不同网络超核的计算节点之间的通信优先级。
第三方面,提供了一种流式计算系统的调度装置。该装置包括:网络超核确定单元,配置用于根据计算节点所在的数据中心将该计算节点归入数据中心所连接的网络超核;算子类型确定单元,配置用于根据归入同一网络超核的已有计算节点的算子类型分布,确定所述计算节点的算子类型;以及分组确定单元,配置用于根据同一网络超核下的计算节点分组情况,确定所述计算节点归入的组。其中,属于同一组的计算节点之间的通信优先级高于属于不同组但归入同一网络超核的计算节点之间的通信优先级,后者高于归入不同网络超核的计算节点之间的通信优先级。
按照本申请实施例提供的流式计算系统,通过将计算节点按地域进行分组,能够大大降低通信成本和跨地域通信的不稳定因素。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出了现有技术的流式计算系统中的算子分布以及对计算任务的调度的示意图;
图2示出了按照本申请实施例的算子按地域分布以及对计算任务的调度的示意图;
图3示出了按照本申请实施例的流式计算系统的一种示意性架构图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510150536.6/2.html,转载请声明来源钻瓜专利网。