[发明专利]一种HADOOP计算慢节点的自动监控方法及系统在审
申请号: | 202310226836.2 | 申请日: | 2023-03-10 |
公开(公告)号: | CN116302340A | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 王忠伟 | 申请(专利权)人: | 天翼云科技有限公司 |
主分类号: | G06F9/455 | 分类号: | G06F9/455 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100010 北京市东城区青*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 hadoop 计算 节点 自动 监控 方法 系统 | ||
本公开了一种HADOOP计算慢节点的自动监控方法及系统。自动监控方法通过HTTP方式获取映射操作输出的分布式文件,保存到分布式文件系统集群的NameNode中;将分布式文件通过信道写入到客户端,并将分布式文件传输时间和读写时间存储到分布式文件系统集群的NameNode中;基于HADOOP、分布式文件传输时间和读写时间计算分布式文件的慢结点,存储慢结点到所述分布式文件系统集群的NameNode的Datanode中;定期从分布式文件系统集群的NameNode的DataNode中获取每个慢结点的资源,同时获取资源管理器的整个集群队列资源和使用占比;根据每个慢结点的资源、资源管理器的整个集群队列资源和使用占比,及预设资源阈值对慢结点进行规避。能够识别和监控慢结点,且在慢节点识别的基础上,有效的规避慢节点。
技术领域
本发明属于大数据集群离线技术领域,特别涉及一种HADOOP计算慢节点的自动监控方法及系统。
背景技术
HADOOP集群支持离线的存储和计算,每天可能都会大量的任务运行在YARN(YetAnother Resource Negotiator,另一种资源协调者)上,任务可能会被拆分为多个MapTask(映射操作)和Reduce Task(归约任务)并行运行,Task(任务)完成的时间取决于运行最久的Task(任务)。然而,数据从map task输出到reduce task输入的Shuffle过程往往是很耗时的过程,因为会涉及到网络数据传输,通常分配到Task的节点如果网络慢,磁盘读写慢都会很大程度影响Task运行时间,致使整个任务的运行时间增长。
随着HADOOP集群中机器使用时间变长,机器变得老旧,集群内部常常会出现“性能退化”的节点,节点的磁盘读写速度降低、网络传输速度变慢。HADOOP集群规模扩大到一定数量时,比如上千个节点时,慢节点发现成本大大增加,发现难度也不断提高。绝大多数时候,慢节点都藏匿于众多健康节点中,只有当用户Task(任务)存在较大时延,且排除Task自身原因,比如数据倾斜,队列拥堵之外,才发现可能是该节点网络,读写磁盘慢,导致Task运行较其他Task慢很多,致使整个任务链延时很多,最终可能导致很多SLA(Service-LevelAgreement,服务等级协议)任务时间无法得到保障。
针对YARN中的这种计算慢节点,从提升运维自动化的角度出发,提炼出当前慢节点监控与处理存在的主要问题有:(1)慢节点监控中,考虑到HADOOP集群的节点数量众多,在不耗费过多系统资源的基础上,在大规模集群环境下及时准确识别并筛选出慢节点存在较大挑战。(2)Task运行慢的原因很多,就如何判断是因为节点慢造成,排除其他原因,比较复杂。(3)如何获取这种运行慢的节点的信息,如何让任务不再分配到这些慢的节点,又能保障集群的资源不被缩减太多,达到一种平衡是一种技术挑战。
随着HADOOP集群规模总是越来越大,人工运维成本不断上升,HADOOP集群的运行维护工作量也变得巨大,日常工作内容也变得繁冗复杂,为了保障SLA的任务,不让每天都有一些随机的任务“拖后腿”,亟需一种及时的发现计算慢的节点,有效排除任务运行到慢节点的方法。
发明内容
本发明克服了现有技术的不足之一,提供了一种HADOOP慢计算节点自动监控与处理,能够及时、准确识别慢节点,善慢节点自动化规避流程,使HADOOP任务在资源不吃紧的情况下避免分配到慢节点,降低人工干预风险,自动化根据策略排除慢节点,权衡资源与排除节点的平衡。
根据本公开的一方面,提出了一种HADOOP计算慢节点的自动监控方法,所述方法包括:
通过HTTP方式获取映射操作输出的分布式文件,保存所述分布式文件系统集群的NameNode中;
将分布式文件系统集群的NameNode中分布式文件通过信道写入到客户端,并将所述分布式文件传输时间和读写时间存储到所述分布式文件系统集群的NameNode中;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼云科技有限公司,未经天翼云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310226836.2/2.html,转载请声明来源钻瓜专利网。