[发明专利]一种针对大数据平台的慢任务原因检测方法有效
申请号: | 201711436008.2 | 申请日: | 2017-12-26 |
公开(公告)号: | CN108153587B | 公开(公告)日: | 2021-05-04 |
发明(设计)人: | 杨海龙;周红刚;李云春;李巍 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F11/34 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 杨学明;邓治平 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 针对 数据 平台 任务 原因 检测 方法 | ||
大数据的应用程序处理过程一般会划分为多个阶段,每个阶段划分多个任务在多个节点上并行执行,这些任务一般执行相同的代码,当一个阶段所有任务全部完成才能进入下一个阶段执行。在处理过程中,很多因素会导致某些任务执行时间过长,这些任务大幅拖慢了程序的执行时间,检测导致这些慢任务的原因(故障诊断)有助于大数据应用开发人员改善大数据应用性能。本发明提出的针对大数据平台的慢任务原因检测方法,通过周期性的硬件信息采样和运行日志分析的方法获取相关特征并运用统计学方法得出导致慢任务的原因。
技术领域
本发明涉及大数据应用性能分析,资源监控,性能瓶颈诊断和可视化。
背景技术
过去十几年里,互联网的发展使得数据成指数积累,大数据已经越来越广泛地应用在各个领域。大数据处理问题的方式基本可以简化为把数据划分为小数据块,然后每台机器处理一个小数据块,被称为一个任务,当有些机器处理任务过慢就会拖慢整个程序的执行速度,这些任务被称为慢任务(straggler task)。在微软必应的云计算环境下,10%的慢任务执行时间长度为任务执行时间中位数的10倍。针对谷歌云计算环境的研究也发现,最慢的5%的任务导致了99%的延迟。还有类似的生产环境下日志分析,都一致验证了慢任务会造成很大的延迟。
目前已有的方法主要集中在如何用投机执行去消除慢任务的影响,在程序运行时检测到慢任务,然后把这些任务分发到空闲机器上执行。这种方法的缺点在于慢任务的产生是由很多种因素引起的,如果是由于网络拥堵造成执行时间过长,那么将任务迁移到别的机器会引起更大的拥堵;如果是由于数据倾斜(任务处理的数据量太大)造成执行时间过长,将任务迁移到别的机器同样不能让程序执行地更快。此外,投机执行会占用额外的资源,这将导致整个集群处于高负载状态,不便多个用户共享计算资源。现有的慢任务原因定位主要有以下几种方法:
1.相关性分析
这种方法主要是判断慢任务的出现是否伴随着某些特征的出现,这种方法有很大的弊端,这些伴随慢任务出现的特征不一定是导致慢任务出现的原因,比如高资源占用率有时候可能是任务本身引起的,这种情况下就是高资源占用率导致了慢任务;
2.插桩
这种方法主要是向大数据平台插桩,获取详细的调度信息,计算出任务执行每一个步骤所用的时间,从而找出慢任务原因。这种方法的弊端在于需要插桩才能获取需要的信息,在生产环境不便部署;而且,很多可能导致慢任务产生的特征无法测量时间,这种方法得出的慢任务原因不够全面;
3.自顶向下分析
这种方法主要是指定一个按照优先级排列的特征序列,然后依次检查慢任务在执行过程中是否出现这些特征,一旦发现有特征满足条件就停止查找,这种方法的缺点在于无法为慢任务定位多个特征,而且优先级的确定具有很强的人为因素,不具备客观性;这种方法同样没有进行同阶段不同任务比较,无法准确定位慢任务原因。
发明内容
本发明提供了一种针对大数据平台的慢任务原因分析方法,基于大数据平台离线日志分析加采样日志分析的方式得到特征,然后将慢任务的特征和同阶段不同任务的特征进行对比,得到慢任务原因;其优点在于能够判定任务粒度的内因和外因,便于用户定位应用程序瓶颈,改进应用程序的执行时间。包括以下步骤(1)-(9):
步骤(1)从集群调度器获取原始日志信息;
集群调度器负责调度用户应用程序,当用户应用程序结束后,集群调度器将日志信息整合,形成原始日志信息,送往故障分析器;
步骤(2)故障分析器解析原始日志信息,获取资源占用序列,负载生成时间段序列,任务对象序列;故障分析器解析不同来源的原始日志信息,将资源占用日志解析成按照计算节点分开存储的且按照时间先后顺序排列的资源占用序列,将负载占用日志解析成按照计算节点分开存储的且按照时间先后顺序排列的负载生成时间段序列,将大数据日志信息解析成按照任务序号排列的且包含原始特征的任务对象序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711436008.2/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置