[发明专利]服务器的硬件状态监控方法和系统有效
申请号: | 201310128124.3 | 申请日: | 2013-04-12 |
公开(公告)号: | CN103200050A | 公开(公告)日: | 2013-07-10 |
发明(设计)人: | 刘凯;莫林林;孙墨 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L12/24;H04L29/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 服务器 硬件 状态 监控 方法 系统 | ||
技术领域
本发明涉及计算机技术领域,特别涉及一种服务器的硬件状态监控方法和系统。
背景技术
服务器管理资源并为用户提供服务,是互联网中非常重要的一环。相对于普通计算机来说,服务器在稳定性、安全性、性能等方面都要求更高。
当服务器上线后,为了确保服务器正常安全的工作,一般每日由特定的驻场工作人员进行早晚各一次的服务器硬件巡检任务。主要对于服务器硬盘状态指示灯、内存状态灯、电源状态灯、内部状态灯和外部状态灯的异常状况进行手工记录,并在下一个工作日进行数据汇总、上传。然后再由人工确认故障配件对服务器运行影响范围,并进行优先级设定后向事务处理平台数据推送数据。
现有技术主要有如下缺点:
(一)、服务器运行状态由人工进行监控,当大批量服务器线上运行时,至少需要分配2至3人进行早,晚各一次例行巡检,耗费人力、执行效率低且精度不高。并且人工现场查看设备运行状态,在接触设备的同时易造成网络中断或其它异常,无法避免因人为疏忽导致故障漏报或响应不及时。
(二)、对日常故障诊断效率低。当线上设备有异常时,无法第一时间获取足够的有效信息,排查效率不高,且发生故障的时候,已经对线上服务造成影响,无法做到线上设备异常预报警。在大批量服务器的状态下,集群可运维效率低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明的一个目的在于提出一种服务器的硬件状态监控方法。本方法自动化进行状态监控,更加方便、精确、高效,并为日常运维提供准确的故障预警,在节约人工成本的同时,完善了服务器的自动化运维标准。
本发明的第二个目的在于提出一种服务器的硬件状态监控系统。
为达到上述目的,本发明第一方面的实施例提出了一种服务器的硬件状态监控方法,包括如下步骤、:对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个所述服务器的硬件状态;根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;对所述故障等级和故障信息进行分析,根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
根据本发明实施例的服务器的硬件状态监控方法自动化对大批量服务器硬件运行状态进行监控,解决了当前大批量服务器人工巡检的故障遗漏以及响应不及时的问题,在节省了人力巡检成本的支出的同时,避免了人为造成设备异常中断的影响,且大大提高了日常运维效率及故障预判.同时增强业务监控部署变更的灵活性及可操控性。
当日常故障发生时,可以调用监控数据库,实时查询服务器硬件运行状态,及时发现目常异常服务器报警信息,从而方便快速进行配件报修及更换响应,为新设备集中到货提供运维保障及技术支持,同时数据库的信息储备便于新服务器到货质量统计。在技术要求降低的同时,带来更多的可操控性,同时批量监控的预判给集中正常运行提高必要的数据参考及技术保证。
在本发明的一个实施例中,所述对多个服务器进行ipmi带外硬件,包括如下步骤:启动对服务器的定时监控任务;嵌入ipmitool工具;检测是否介入ilo网络;如果是,则利用ipmitool工具对服务器进行硬件状态监控,否则记录故障信息。
在本发明的一个实施例中,所述利用ipmitool工具对服务器进行硬件状态监控,包括如下步骤:通过API接口汇总各IDC的内网IP地址列表,定时并发对所述多个服务器进行ipmi带外硬件巡检,并发多个tcp连接。
在本发明的一个实施例中,所述根据硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤采用自动或手动方式执行。
在本发明的一个实施例中,所述对所述故障等级和故障信息进行分析包括:分析故障等级和故障信息对应的故障对整机的影响程序。
本发明第二方面的实施例提出了一种服务器的硬件状态监控系统,包括:带外巡检模块、故障等级划分模块、故障分析模块和推送模块。
其中,带外巡检模块用于对多个服务器进行智能型平台管理接口ipmi带外硬件巡检以获取每个所述服务器的硬件状态;故障等级划分模块用于根据所述硬件状态和预设故障知识库对每个所述服务器进行故障等级过滤并获取每个所述服务器的故障信息和故障等级;故障分析模块用于对所述故障等级和故障信息进行分析;推送模块用于根据分析结果选择性地将故障信息推送至事务处理平台以由所述事务处理平台对故障进行排除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310128124.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种CAN总线数据收发设备
- 下一篇:数据监控方法及装置