[发明专利]计算机集群的健康度检测系统和方法无效
申请号: | 200810041906.2 | 申请日: | 2008-08-20 |
公开(公告)号: | CN101373447A | 公开(公告)日: | 2009-02-25 |
发明(设计)人: | 寇大治;王涛;袁俊 | 申请(专利权)人: | 上海超级计算中心 |
主分类号: | G06F11/00 | 分类号: | G06F11/00 |
代理公司: | 上海新天专利代理有限公司 | 代理人: | 祖志翔 |
地址: | 201203上*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 集群 健康 检测 系统 方法 | ||
技术领域:
本发明属于高性能计算领域,特别涉及一种高性能计算机集群的健康度检测系统及方法。
背景技术:
随着计算机软硬件和并行计算的发展,高性能计算和模拟的方法已经被应用到越来越多领域中。也有越来越多的组织开始采购、搭建和使用高性能计算机集群。因此,建立起一套完整的计算机集群健康度检测系统就尤为重要。
现有的计算机集群的结构特点是:整个集群系统由若干节点构成,最简单的集群可以由主节点和计算节点构成,对于大规模的集群可能还会把主节点细分为登陆节点,存储节点等,而这一系统中最主要的承担计算任务的是计算节点,每一个节点可单独成为一个工作站,有一定的独立性,而每个计算节点之间的系统互为镜像,所有节点通过高速网络互联(例如千兆以太网、myrinet或者infiniband等),作业任务通过消息传递等方式分布到各个计算节点上。这种非单一系统镜像的松耦合集群体系相对SMP、MPP等其它高性能计算平台架构的优点是构建成本低且容易搭建和实现,同时缺点也在于此,整个系统的松耦合导致管理较为复杂。
因为计算机集群系统节点众多,就产生了一定的规模效应,使集群系统与单一的工作站和服务器有着本质的区别,对于集群系统的检测来说,如果采用手动检测,则检测效率低,检测质量也无法保证。
另外,还有一些厂商开发了一些检测工具,这些工具多是封闭的体系,且主要针对其自己的硬件特点开发,往往功能上不够完备,且不具有普适性。
发明内容:
有鉴于此,本发明的目的在于建立一套针对计算机集群的健康度检测系统及方法,其具有良好的层次架构,且不同层次通过模块化实现,以达到对计算机集群的健康度进行健壮和完备的检测。
这种计算机集群的健康度检测系统,其特征在于:
检测系统由层次化的模块组成,模块包括检测模块和外围模块。
其中检测模块包括:
硬件检测模块201,这一模块主要是检查各类硬件的健康状况,这包括接入节点、存储节点、计算节点、网络设备节点,以及电力设备,制冷散热设备等附加设备。对于包含特殊网络设备或对网络特性有特别关注的集群系统的检测,也可将本模块中涉及到网络的部分细化后独立形成网络检测模块,加在本模块之后。从整体上来说,这个模块主要是检测作为集群系统的各个子元件独立运行的情况。这相当于一个局部的微观检测,而监测的内容除了电力供应情况、温度等外部条件外,对于集群内部来说,检测主要围绕着各种节点主要元件来开展的。
服务检测模块202,这一模块主要针对集群系统本身应该提供的系统级服务进行的检测,包括所有节点的可登录状态测试,这包括远程登陆、远程执行、远程数据传输等,重要的网络服务,这包括网络信息服务、网络文件系统服务等,以及可能使用到的系统数据库的完整性和可达性。这一模块主要检测的是集群系统是否具备将各个子元件组织成一个整体而体现一个整体集群的功能完整性。
软件检测模块203,这一模块主要是针对操作系统之上的应用检测,包括对可能需要调用到的主要系统库文件、数学库文件、以及资源调度系统本身等的检测,对于作业调度系统,这一系统是最终用户与集群系统交互的界面和平台,决定了最终的作业能否完整而健康的运行,以及与最终用户的交互是否完备,所以除了要完成作业调度系统的通用测试外,还设置了针对各个集群不同的常见应用所需要的其他一些测试。这一模块的检测将对集群系统提供应用的功能性实现做出判断。
作业检测模块204,这一模块是对集群系统的一个整体检测,包括各种类型、各种规模作业的提交,规模和类型的选择可能还会涉及一些边缘化的应用,以实现对集群系统整体健壮性的检测;这里包括的提交类别还有依赖或者不依赖资源调度系统,对于测试是否依赖调度系统也体现了从不同高度观察和检测整个集群系统的目的;以及包括整个集群系统在不同整体负荷下不同作业的提交等。这个模块将对整个集群,包括硬件和各级软件,各个子系统的协调工作以实现整体应用的功能性做出检测。
外围模块包括:
输入模块101,这一模块将生成针对待检测模块的模块接口,之后检测模块的输入配置信息都将从这个输入模块接口获取,本模块中的输入配置信息,也可按照需要采用交互式方式,形成交互式输入模块,采集这些输入信息。
维护模块102,这一模块主要是对检测到的故障通过判断,对可以维护更正的问题给予修改;对无法修复或者无法判断的故障,本模块将会对检测到的故障单元作隔离处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海超级计算中心,未经上海超级计算中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810041906.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:液晶显示装置及其制造方法
- 下一篇:一种喷油泵柱塞的表面处理方法