[发明专利]一种流式计算环境下的并行数据回流方法有效
申请号: | 201710260797.2 | 申请日: | 2017-04-20 |
公开(公告)号: | CN107153526B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 陆佳炜;陈烘;周焕;马俊;高燕煦;李杰;卢成炳;徐俊;肖刚 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F9/38 | 分类号: | G06F9/38;G06F16/27 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算 环境 并行 数据 回流 方法 | ||
一种面向实时流计算的并行数据回流方法,包括以下步骤:步骤(1)初始化三个队列;步骤(2)初始化一个管道Data Queue;步骤(3)Topology的Spout向Data Queue发起读请求;步骤(4)Data Queue读取三个队列中的数据;步骤(5)判断ToP指向的队列是否为空,若是,进行步骤(6);若否,进行步骤(7);步骤(6)将From队列中的数据复制到To队列中,并清空From队列;步骤(7)Topology获取Data Queue中的数据,当前Task向下游发送一个Tuple;步骤(8)当前Task等待发送Tuple的反馈,若发送失败或超时未反馈,则选择回流该Tuple;步骤(9)判断Topology是否可以停止,若否,则回到步骤(4),否则,结束。本发明数据无状态且具有容错性;降低数据计算延迟,提高系统响应性;回流的数据会尽可能优先处理。
技术领域
本发明涉及信息技术领域,具体涉及一种流式计算环境下的并行数据回流方法。
背景技术
从社交网络资讯(以提供热门话题或实时搜索)到广告处理数据引擎,实时流计算在当今工业中被广泛地使用,如Apahe Storm,Twitter’s Heron,Apache Flink,SparkStreaming,Samza等。在这些系统中,数据的产生完全由数据源确定,数据源的动态变化及状态不统一导致数据流的速率呈现出了突发性的特征,而数据流的突发性特征常常导致过载的发生,发生过载还有以下几个原因:网络拥塞,资源利用率高,干扰,异质性,IO高频阻塞等。因此,在实时流计算中,过载是常见且难以避免的。
实时流计算已被许多知名企业应用于大数据计算领域,如淘宝实时分析、阿里云Galaxy实时计算、携程网站性能监控等。对于实时性系统,系统的响应性和稳定性是关注的重点。响应意味着降低处理数据的延迟,即数据计算延迟,例如,数据从它输入至系统中到其结果反映给用户所经过的时间;稳定性意味着系统能够稳定持久地在集群中运行。而过载的发生极易导致系统整体的数据计算延迟增加和不稳定甚至不可用。
在实时流计算系统中,计算结构是一个有向无环图(DAG),称为拓扑(Topology),拓扑由数据流(Steam),数据流的生成者组件(Spout)和运算组件(Bolt)组成。Task是拓扑中Spout或Bolt在运行时的实例,执行Task的进程称为执行器(Executor),执行器所在的服务器称为工作节点(Worker Node)。Stream由一连串Tuple序列组成,Tuple是在Topology中流动的数据对象。
Tuple丢失或Tuple处理时间超过Topology规定的处理时间都会导致Tuple重放,而Tuple的频繁重放是Topology过载的主要原因之一。此外,为了保证数据的容错性,实时流计算通常会在Spout中维护一个待发送队列,队列中的一条Tuple被发送出去之后不会被立即删除,而是维持一个“挂起”状态,直到该Tuple被Topology处理完成的信号到达。若数据在计算过程中失败,Topology可以重发处于“挂起”状态的数据,以实现数据的容错。但在大规模实时流计算中维护大量数据的状态无疑会增加系统的负载和复杂性。
数据容错是大数据计算中不可或缺的关键技术,由于进行大数据计算的分布式集群往往包含成千上万个节点,庞大的节点数量使得节点失效成为常态。Wang.Y提出了一种数据复制技术,它是一种多副本的数据容错技术。Plank.J.S提出了一种可扩展的数据容错技术,它是一种纠错码数据容错技术。随着数据规模的持续扩大,容错能力强且成本低的数据容错方法已成为研究的热点。
发明内容
为了克服现有的实时流计算中为解决数据容错而实现的有状态的数据处理方式增加了系统的复杂性的不足,此外,在Topology过载时,Tuple表现出频繁重放,这种有状态的解决方法无疑会增加系统的负载,而在大规模的分布式系统上,性能的任何改进都意味着基础设施成本的显著降低,以及最终用户的生产力的显著提高。本发明提出了一种容错的、数据无状态的并行数据回流方法,此方法是一种面向实时流计算的数据重放方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710260797.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:可收缩且可张开的装有弹簧的圆盘
- 下一篇:基于情绪的文本分类方法
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置