[发明专利]计算节点的定位方法、系统及管理节点无效
申请号: | 201010509137.1 | 申请日: | 2010-10-14 |
公开(公告)号: | CN102446131A | 公开(公告)日: | 2012-05-09 |
发明(设计)人: | 沈金祥;朱建涛;陈婓;崔巍 | 申请(专利权)人: | 无锡江南计算技术研究所 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 逯长明;王宝筠 |
地址: | 214083 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算 节点 定位 方法 系统 管理 | ||
技术领域
本申请涉及计算机技术领域,特别涉及一种计算节点的定位方法、系统及管理节点。
背景技术
并行计算指通过多个具有计算能力的设备共同完成一项计算任务,以提高任务的处理效率。在并行计算系统中,每个设备也称为一个计算节点,当系统中的计算节点数量达到万数量级时,该系统称为超大规模并行计算系统,相应的,运行在若干设备上的程序称为超大规模并行程序。在超大规模并行计算系统中,程序通常被划分为多个进程,这些进程运行在不同的计算节点上,协同完成一项计算任务。在超大规模并行计算系统中,由于各个计算节点之间是协同运行的,因此任何一个计算节点上发生异常,都将导致程序的运行异常,甚至使得计算节点发生宕机。现有技术中,一旦某个计算节点发生错误,该计算节点的操作系统(例如,Linux)会记录错误日志,并将错误信息输出打印,由系统管理者逐一检查所有计算节点的错误信息,以便对出错的计算节点进行定位。
发明人在对现有技术的研究过程中发现,由于每个计算节点操作系统所记录的错误信息种类较多,并且某个计算节点上的一个错误可能引起该计算节点,甚至其它计算节点上产生多条错误信息,而采用人为分析错误信息,并定位错误计算节点的方式的定位效率低下,且耗费大量人力;并且,由于错误信息保存在操作系统的临时存储区,新的其他系统信息将覆盖所记录的错误信息,特别当操作系统故障时,管理员将无法获取到错误信息,从而导致无法对故障的计算节点进行定位。
发明内容
本申请实施例的目的在于提供一种计算节点的定位方法及系统,以解决现有技术中定位错误节点效率不高,且耗费人力的问题。
为解决上述技术问题,本申请实施例提供如下技术方案:
一种计算节点的定位方法,应用在包含管理节点和若干计算节点的并行计算系统中,所述方法包括:
所述管理节点监测在所述系统中执行的并行作业;
当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点;
获取所述并行计算节点的错误信息;
根据预先设置的错误优先级的排序信息对所述错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。
还包括:保存预先设置的计算节点中所发生错误的错误优先级的排序信息,所述错误优先级的排序信息包括错误类型信息和对应的优先级设置信息。
所述获取并行计算节点的错误信息包括:
扫描执行所述并行作业的并行计算节点;
按照预先定义的错误信息记录结构从所扫描的并行计算节点上读取错误信息并保存。
所述根据预先设置的错误优先级的排序信息对所述错误信息进行过滤包括:
通过查找所述错误优先级的排序信息,将每个并行计算节点中优先级最高的错误信息作为所述并行计算节点的过滤错误信息;
比较每个并行计算节点的过滤错误信息的优先级排序;
根据比较的结果筛选出优先级排序最高的过滤错误信息所在的计算节点。
还包括:
所述若干计算节点实时捕获本地发生的错误;
将所捕获的每一个错误的错误信息记录到预先设置的内存区域中。
一种计算节点的定位系统,所述系统为并行计算系统,包括:管理节点和若干计算节点,
所述若干计算节点,用于执行并行作业;
所述管理节点,用于当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点,获取所述并行计算节点的错误信息,根据预先设置的错误优先级的排序信息对所述错误信息进行过滤,并根据过滤的结果定位到相应的计算节点。
所述管理节点,还用于保存预先设置的计算节点中所发生错误的错误优先级的排序信息,所述错误优先级的排序信息包括错误类型信息和对应的优先级设置信息。
所述计算节点,还用于实时捕获本地发生的错误,并将所捕获的每一个错误的错误信息记录到预先设置的内存区域中。
一种管理节点,应用在包含若干计算节点的并行计算系统中,包括:
监测单元,用于监测在所述系统中执行的并行作业;
确定单元,用于当监测到异常并行作业时,确定执行所述异常并行作业的并行计算节点;
获取单元,用于获取所述并行计算节点的错误信息;
过滤单元,用于根据预先设置的错误优先级的排序信息对所述错误信息进行过滤;
定位单元,用于根据过滤的结果定位到相应的计算节点。
还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所,未经无锡江南计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010509137.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种节能炒锅
- 下一篇:一种滤棒成型机烟舌压紧块