[发明专利]一种自动恢复集群中意外宕机节点的方法在审
申请号: | 201410717147.2 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104461823A | 公开(公告)日: | 2015-03-25 |
发明(设计)人: | 孙玉超 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;H04L12/24;H04L12/26;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 恢复 集群 意外 节点 方法 | ||
技术领域
本发明涉及计算机技术领域,具体地说是一种自动恢复集群中意外宕机节点的方法。
背景技术
目前在高性能计算集群中,在实际使用过程中,计算节点可能由于某种原因会意外宕机,由于集群一般由成百上千计算节点组成,意外宕机的节点不需要第一时间恢复,也不会影响整个集群的使用,我们可以利用ipmi工具,监控集群节点状态,当发现有节点宕机后,通过ipmi的电源重启功能,自动对宕机节点发送重启命令,以达到自动恢复宕机节点的目的。
发明内容
本发明的目的是克服现有技术中存在的不足,提供 一种自动恢复集群中意外宕机节点的方法。
本发明的技术方案是按以下方式实现的,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
本发明的优点是:
本发明的一种自动恢复集群中意外宕机节点的方法和现有技术相比,我们可以通过网络工具,监控整个集群的使用情况,当发现有节点宕机时,通过ipmi自动重启宕掉的节点;而且本发明还具有设计合理、结构简单、使用方便等特点,因而,具有很好的使用价值。
具体实施方式
下面对本发明的一种自动恢复集群中意外宕机节点的方法作以下详细说明。
本发明的一种自动恢复集群中意外宕机节点的方法,方法如下:
在集群使用过程中,根据集群规模或者可宕机时间,设定自动检测宕机的间隔;
在管理节点上监控pbs提取到的节点状态down后,再通过ping命令确认节点宕机后,把监测结果写到log里,以备管理员查看宕机记录;
确认宕机后,管理节点通过ipmi对宕机节点发送reset命令,强制重启宕机节点。
节点资源监控:通过作业调度PBS来提取计算节点状态,监控到的节点状态down后,在通过ping命令,对宕掉节点进一步确认是否宕机。
宕机节点重启:确认节点宕机后,通过IPMI协议命令对宕机节点发送reset命令,强制重启宕机节点。
本发明的一种自动恢复集群中意外宕机节点的方法其加工制作非常简单方便,按照说明书所示即可加工。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410717147.2/2.html,转载请声明来源钻瓜专利网。