[发明专利]离散流处理模型下批次间隔大小的动态设置系统及方法有效
申请号: | 201610124877.0 | 申请日: | 2016-03-04 |
公开(公告)号: | CN105677489B | 公开(公告)日: | 2017-06-20 |
发明(设计)人: | 史玉良;崔立真;李庆忠;郑永清;刘金 | 申请(专利权)人: | 山东大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50 |
代理公司: | 济南圣达知识产权代理有限公司37221 | 代理人: | 张勇 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离散 处理 模型 批次 间隔 大小 动态 设置 系统 方法 | ||
技术领域
本发明涉及离散流处理模型下批次间隔大小的动态设置系统及方法。
背景技术
近些年来,人们对于海量数据进行分析处理的需求越来越大。尤其是随着对数据实时性和有效性的理解深刻,“大数据”实时处理技术日益渗透到经济发展、社会进步和人类生活的各个领域,成为生产力中活跃的因素。例如,在twitter或者新浪微博中,要实时计算出最新的热点话题;电商网站中的推荐系统需要对用户的购买行为进行分析,进而实时地对商品进行推送,增加销量。这些应用场景对计算的实时性要求较高,而且要求系统有一定的容错性。
传统的分布式流处理模型采用连续操作的方案,该方案将整个计算过程分解成多个有状态的计算算子的集合,通过更新内部状态以完成计算。传统的处理方法在故障恢复上有一定的困难,缺乏有效的容错机制。近些年来以Spark为代表的大数据计算框架提出了基于批次的处理模式,基于批次的处理模式将输入流以及其计算分解成一些小的批处理计算任务,例如系统设置2秒为一个批次处理流数据,那么系统将2秒钟内收集到的流数据作为一个批数据传递给集群进行处理。基于批次的流处理系统克服了传统的连续处理模式下流处理系统的容错难这一问题。由于要将流计算分解为周期上的批处理计算,直观上来讲批处理的粒度划分决定了系统计算的时延和吞吐率。因而怎样确定合理的批次划分,并且可以根据资源进行伸缩性调整成为一个挑战。
发明内容
本发明的目的就是为了解决上述问题,提供一种离散流处理模型下批次间隔大小的动态设置系统及方法,它具有使得端对端延迟和整个流负载吞吐量之间达到权衡的优点。
为了实现上述目的,本发明采用如下技术方案:
离散流处理模型下批次间隔大小的动态设置系统,包括:
主节点,其分别与数据源和若干工作节点连接,所述主节点上部署有接收器和任务管理模块,所述接收器依次通过批次控制模块和观察模块与工作节点连接;主节点将从数据源中得到流数据;
所述观察模块,用于对集群中的负载信息和网络流量信息进行监控,计算出符合设定条件的批次间隔值;所述批次控制模块,将批次间隔值传输给接收器,按照批次间隔值对接收器中的流数据切分批次;所述任务管理模块将每个批次划分为分布式任务,并分配到工作节点中进行计算;所述批次间隔值是指从接收器中取出未被处理的数据的时间间隔;按照批次间隔值进行处理的数据叫做间隔值下对应的批次。
所述数据源是主节点的数据获取的来源;所述接收器包括缓存单元,接收器接收来自数据源的数据并将接收到的数据存储到缓存单元中。
一种基于离散流处理模型下批次间隔大小的动态设置系统的批次间隔大小动态设置方法,包括如下步骤:
步骤(1):设置系统最小的间隔值为初始间隔值;
步骤(2):观察模块和批次控制模块对初始间隔值进行预处理,得到批次处理时间和批次间隔值,任务管理模块按照预处理得到的批次间隔值从接收器中取出该批次间隔值对应的批次数据,并将批次数据转化为批次分布式任务在集群中进行处理;
步骤(3):观察模块对步骤(2)的预处理结果进行判断,判断预处理结果是否达到临界条件,若达临界条件,就转到步骤(4);否则,就返回步骤(2);所述临界条件是指批次处理时间小于该批次间隔值大小;
步骤(4):观察模块和批次控制模块对预处理后的批次间隔值进行动态调整,任务管理模块按照动态调整后的批次间隔值从接收器中取出该批次间隔值对应的批次数据,并将批次数据转化为批次分布式任务在集群中进行处理。
所述步骤(2)的过程,包括:
步骤(201):按照初始间隔值从接收器中取出初始间隔值对应的数据作为一个批次数据,并记录初始间隔值对应批次的处理时间;
步骤(202):判断初始间隔值下的批次处理时间是否大于等于2倍的初始间隔值;若是,就进入步骤(203);否则,进入步骤(204);
步骤(203):对批次间隔值进行A级调整:设定下一个批次间隔值为本次间隔值的两倍,按照新计算的下一个批次间隔值从接收器中取出下一个批次间隔值的流数据,并对该流数据进行计算,并记录下一个批次间隔值对应批次的处理时间,并进入步骤(204);
步骤(204):对批次间隔值进行B级调整:设定下一批次间隔值是当前批次间隔值2倍内的数,而且批次间隔值随着运行次数增加而减少,按照新计算的下一个批次间隔值从接收器中取出下一个批次间隔值的流数据,并对流数据进行计算,并记录下一个批次间隔值对应批次的处理时间;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610124877.0/2.html,转载请声明来源钻瓜专利网。