[发明专利]一种大数据流处理框架的性能基准测试系统及方法有效
申请号: | 201810461515.X | 申请日: | 2018-05-15 |
公开(公告)号: | CN108683560B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 黄涛;许利杰;魏峻;王伟;郑莹莹;刘重瑞;胡家煊 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/807;H04L12/803 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽;成金玉 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据流 处理 框架 性能 基准 测试 系统 方法 | ||
本发明涉及一种大数据流处理框架的性能基准测试系统及方法,系统由流式负载生成器、流式场景与应用构造器、性能数据采集工具和性能数据分析工具四个部分组成。本发明通过选取符合流式处理模式计算特征的应用,生成符合流式处理模式数据特征的负载,测试大数据流处理框架在典型场景与应用下的性能表现,采集运行时的反压、吞吐量、延迟、系统资源、节点数据等性能指标,最后通过分析和统计采集数据来诊断流处理框架的瓶颈所在。
技术领域
本发明涉及一种大数据流处理框架的性能基准测试系统及方法,尤其涉及在典型流式场景与应用下框架运行时的性能表现,属于软件技术领域。
背景技术
随着互联网时代的到来,移动互联网、社交网络、电子商务等技术的不断发展,数据呈现爆发式增长,大数据已经成为了当今科技界、企业界甚至政府关注的热点。
一般来说,数据可分为有界数据和无穷数据。有界数据,也称批数据,指固定有界的存储在持久化介质中的数据,计算时数据量不变化。通常来说,批式大数据处理框架(后文简称为批处理框架)接收用户提交的任务对存储好的数据集进行逻辑处理和分析,最后输出结果。例如,采用机器学习算法对历史数据集进行分析挖掘,建立预测模型。现今已有许多成熟的批处理框架得到运用,如Hadoop、Spark等。
但是,随着传感设备、社交网络的兴起或广泛运用,对海量高速数据进行实时分析的需求不断提升,这种持续产生并且无穷的数据被称为无穷数据,又称为流数据。国外咨询机构对企业信息化的调查显示,70%的企业存在对流数据实时处理的需求(Liu X,Iftikhar N,Xie X.Survey of real-time processing systems for bigdata.International Database EngineeringApplications Symposium ACM.NewYork.USA 2014:356-361)。例如,阿里巴巴基于Blink框架,实时更新商品搜索引擎,构建在线机器学习平台;美团网基于Storm框架,分析用户行为,实现准实时的推荐反馈;滴滴出行基于Samza框架,监控订单数据的产生地点,绘制地理热力图预警。
但是流数据有着不同于批数据的特征,传统的批处理框架无法很好的对流数据进行处理,于是流式大数据处理框架(后文简称为流处理框架)应运而生。虽然流处理框架还处在发展阶段,但是随着流式处理场景的日趋重要,流处理框架已成为学术界、工业界的关注重点。现今主流的流处理框架有Storm、Flink等。
集群环境的越来越大,系统性能问题发生的概率也随之增加,节点可能在无法预知的时间或数据上出现失效、资源不足等问题(孙大为,张广艳,郑纬民.大数据流式计算:关键技术及系统实例[J].软件学报,2014,(04):839-862.)。在流式处理场景中,负载过大、参数配置不合理等原因,可能造成系统吞吐量下降、延迟上升;节点处理速率不及输入速率,可能出现反压现象;数据分布不均衡,可能导致单点资源瓶颈。流式处理实时性的要求严苛,用户容忍度低,因而保障流式处理中系统性能稳定尤为重要。但是目前针对大数据系统性能问题的解决方案通常都在问题发生之后,如果能事先构建可能发生性能问题的场景与应用,在实际生产集群中进行测试,就能提前发现系统中资源或配置的问题,减少实际运行时的损失。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810461515.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种云计算平台测试方法
- 下一篇:一种站点状态检测方法及装置