[发明专利]一种分布式hadoop集群故障自动诊断修复系统有效
申请号: | 201510650975.3 | 申请日: | 2015-10-10 |
公开(公告)号: | CN105337765B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 程永新;胡永;李京龙 | 申请(专利权)人: | 上海新炬网络信息技术股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24 |
代理公司: | 上海科律专利代理事务所(特殊普通合伙) 31290 | 代理人: | 袁亚军;金碎平 |
地址: | 201707 上海市青浦区外青*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种分布式hadoop集群故障自动诊断修复系统,包括集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:将监控数据存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。本发明能够自动诊断修复系统故障,使维护变得更加简单,性能数据、节点状态更加清晰明确。 | ||
搜索关键词: | 一种 分布式 hadoop 集群 故障 自动 诊断 修复 系统 | ||
【主权项】:
1.一种分布式hadoop集群故障自动诊断修复系统,其特征在于,包括:集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理;所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目;所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测;所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海新炬网络信息技术股份有限公司,未经上海新炬网络信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510650975.3/,转载请声明来源钻瓜专利网。