[发明专利]一种分布式流数据处理方法有效
申请号: | 201710338078.8 | 申请日: | 2017-05-15 |
公开(公告)号: | CN107133104B | 公开(公告)日: | 2020-07-21 |
发明(设计)人: | 郝志峰;唐凯麟;蔡瑞初;张振杰;傅正佳;温雯;王丽娟;陈炳丰 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F9/50 | 分类号: | G06F9/50;G06F30/20 |
代理公司: | 广州市红荔专利代理有限公司 44214 | 代理人: | 吝秀梅;李彦孚 |
地址: | 510000 *** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 数据处理 方法 | ||
1.一种分布式流数据处理方法,其特征在于,包括:
步骤一,定义流数据应用处理模型;
步骤二,基于减载下的流式数据处理模型确定相关分析参数;
步骤三,测量流处理应用相关参数的数值;
步骤四,基于测量到的负载参数的数值计算输入输出选择率函数;
步骤五,通过所述测量到的参数的数值和所述计算得到的输入输出选择率函数还原应用真实负载;
步骤六,基于所述真实负载预测流处理应用所需最小资源;
所述步骤三具体为:
步骤31,统计得到应用具体的处理单元个数N,数据源总数n;
步骤32,测量与计算每一个处理单元的流入数据流平均到达率λ(i,in)及流出数据流平均到达率λ(i,out);以及整个流处理应用的外部输入数据流平均到达率λ(source,m);
步骤33,测量得到每一个处理单元平均的处理率μi;
步骤34,假设在无减载情况下每一个处理单元的输入数据流平均到达率,即真实负载为每一个处理单元的输入数据流平均到达率整个应用的输入数据流
2.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,所述相关分析参数为以下参数的一种或几种:对流处理应用中的每一个数据源都需要测量在数据源发送数据时统计测量并存储初始负载λ(source,m)、i处理单元第t秒内的平均输入到达率i处理单元第t秒内的平均输出到达率在i处理单元接收数据时测量并存储流入数据流平均到达率λ(i,in)、在i处理单元发送数据时测量并存储流出数据流平均到达率λ(i,out)、在j处理单元发送数据时,测量i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji、实时统计测量并存储i处理单元平均处理率μi、在i处理单元测量其减载率si、统计测量并存储i处理单元的所有祖先处理单元集合Ancestor(i);统计数据源个数n,处理单元个数N。
3.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,基于测量到的减载情况下的流式数据处理应用瞬时输入负载数据和输出负载数据使用多项式拟合方法计算出客观不变的输入输出选择率函数fi。
4.根据权利要求2所述的一种分布式流数据处理方法,其特征在于,基于流式数据处理应用处理单元的拓扑排序,根据客观不变的每个处理单元的输入输出选择率函数fi,i处理单元的j前驱处理单元发送到i的数据占j总发出数据的比例pji以及应用初始负载λ(source,m),逐个计算出处理单元的真实负载情况具体计算公式如下:
溯源至流式数据处理应用数据源,必然存在1个或多个数据单元g和数据源h有:
5.根据权利要求1所述的一种分布式流数据处理方法,其特征在于,真实负载情况和平均处理率μi,计算得到最小资源需求κi,其计算公式为:
6.根据权利要求2所述的一种分布式流数据处理方法,其特征在于,所述步骤四具体为:
步骤41,fi是以λ(i,in)为自变量,λ(i,out)为因变量的函数,有:
fi(λ(i,in))=λ(i,out)i∈[0,N-1]
步骤42,根据实时监测到的每个处理单元的负载数据和输出数据,拟合得到近似的fi函数;
步骤43在流处理应用运行过程,周期性的根据实时负载情况不断训练,更新fi函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710338078.8/1.html,转载请声明来源钻瓜专利网。