[发明专利]一种分布式流数据处理方法有效
申请号: | 201710338078.8 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107133104B | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 郝志峰;唐凯麟;蔡瑞初;张振杰;傅正佳;温雯;王丽娟;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F30/20 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅;李彦孚 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据处理 方法 | ||
本发明提供一种分布式流数据处理应用在减载下资源感知的方法。本发明通过对减载情况下的分布式流式数据处理应用的实际负载的建模与分析,预测该应用在不进行减载操作情况下的真实负载。基于真实负载,本发明能够辅助分布式流式数据处理处理系统的资源管理和调度框架对应用所需要的计算、储存等资源做出正确的测量与分配。
技术领域
本发明涉及分布式流式数据处理应用的资源管理与调度领域,更具体涉及分布式流数据处理方法。
背景技术
随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富,在越来越多的领域出现了对海量、高速数据进行实时处理的需求.由于此类需求往往超出传统数据处理技术的能力,分布式流处理模式和分布式流处理系统应运而生。作为一种运行于分布式流处理系统上的处理海量实时数据流的应用,分布式流处理应用需要获取相应的计算、存储和传输等硬件资源。而分布式流处理应用的资源管理和调度的作用就是根据不同应用的不同需求而合理的分配有限的硬件资源并对硬件资源进行管理,当流处理应用负载过重时,适当为其增加资源,反之则回收资源。此外,由于实时数据流的不确定性和波动性,在某一时刻可能出现超出系统处理能力的数据规模,为了应对这类突发的紧急情况,流处理系统中往往会采用减载等方法,控制数据流的大小以避免系统崩溃。
由于减载的引入,必然导致资源管理调度框架无法准确监控与判断流处理应用的真实负载情况,这就间接导致其无法正确的管理资源。为了解决这一问题,必然需要根据应用在减载下的负载预测真实的负载。基于真实的负载,才能确保资源调度管理框架监测到真实负载情况并正确而合理的管理资源。
如图1所示,为一个词频统计的流数据处理应用。其中每个处理单元之前存在一个减载队列,在减载队列中对负载数据进行丢弃等操作。从数据源流出数据10个句子,经减载率为20%的减载后得到8个句子,进入第一个处理单元—切分句子,处理完成后得到40个单词,经第二次10%减载得到36个单词,进入第二个处理单元,统计每个单词的出现频率并将结果存储。
流处理应用必须进保证每一个处理单元都能够正常运转,即必须保证每一个处理单元能得到最小的计算资源。减载情况下对真实负载进行还原的难点在于,流处理应用的每一个操作之前都有可能会进行减载,这就导致了下游处理单元的负载情况必然受到上游处理单元的影响。因此预测每一个处理单元的负载情况时必须要考虑到上游处理单元的减载情况,这种级联的预测是相当复杂的。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明分析减载下无法监测应用真实负载从而合理分配应用正常运行所需的最小资源的问题,提供了一种减载状态下真实负载预测和最小资源需求预测的方法。本发明的目的在于通过对减载下负载的监测与建模分析,得到真实的负载情况,基于真实的负载辅助资源调度管理框架预测应用所需的最小资源。具体的技术方案如下:
本发明提供了一种分布式流数据处理方法,包括:
步骤一,定义流数据应用处理模型;
步骤二,基于减载下的流式数据处理模型确定相关分析参数;
步骤三,测量流处理应用相关参数的数值;
步骤四,基于测量到的负载参数的数值计算输入输出选择率函数;
步骤五,通过所述测量到的参数的数值和所述计算得到的输入输出选择率函数还原应用真实负载;
步骤六,基于所述真实负载预测流处理应用所需最小资源。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710338078.8/2.html,转载请声明来源钻瓜专利网。