[发明专利]故障检测设备、故障检测方法和程序记录介质有效
申请号: | 201180028026.1 | 申请日: | 2011-06-06 |
公开(公告)号: | CN103026344A | 公开(公告)日: | 2013-04-03 |
发明(设计)人: | 石王坚 | 申请(专利权)人: | 日本电气株式会社 |
主分类号: | G06F11/30 | 分类号: | G06F11/30;G06F11/34 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 王茂华;庞淑敏 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 故障 检测 设备 方法 程序 记录 介质 | ||
技术领域
本发明涉及一种故障检测设备、故障检测方法和程序记录介质。
背景技术
大规模信息系统例如商业信息系统和IDC(因特网数据中心)系统中,随着作为社会基础结构的信息和通信服务(例如web服务和商业服务)的重要性增长,提供这些服务的计算机系统需要保持运行稳定性。此类计算机系统的运行管理通常由管理员手工执行。随着系统变得大规模和复杂化,管理员的负担急剧增加,由于判断失误或者误操作导致的服务挂起变得更加容易发生。
出于这个原因,提供了一种集成的故障原因提取系统,该系统以统一方式监控和控制包含在上述系统中的硬件和软件的运行状态。在集成故障原因提取系统中,由该集成系统管理的多个计算机系统中的硬件和软件的运行状态信息被获取并输出至与该系统连接的故障原因提取设备。用于判别被管理系统的故障的装置包括预先对运行信息设置阈值的装置,以及评估该运行信息与其平均值之间的偏差的装置。
例如,在该故障原因提取系统的故障原因提取设备中,为各个性能信息设置阈值,通过查找超过其各自阈值的各个性能信息来检测故障。故障原因提取设备预先设置一个指示异常的值作为阈值,检测各个元素的异常并且将其报告给管理员。
当报告检测到异常时,管理员需要确定异常发生的原因以解决它。异常发生的典型原因是,例如,CPU超负荷、内存容量不足或者网络超负荷。为了识别异常发生的原因,需要识别可能与该异常相关的计算机,然后调查其系统日志和参数。该操作需要每个管理员具有高度的知识或者知道如何去做,并且需要每个管理员花费大量时间和精力。
由于这一点,该集成故障原因提取系统基于从多个装置获得的事件数据(状态通知),通过对运行状态等的组合自动执行相关分析,为管理员提供针对异常的对策支持,从更广的角度估计问题或原因,然后将其通知给管理员。特别地,为了确保这些服务长期、连续运行的可靠性,其不仅需要针对已经发生的异常采取措施,还需要提取出成为未来异常可能原因的元素,即使这些异常目前还没有明显的发生,然后采取措施,例如以规划的方式强化设备。
例如,以下所示的每个专利文献中描述了这样的故障原因提取系统,或者与该系统中的相关分析相关并且可应用于该系统的技术。专利文献1中公开的技术通过推导出关于正常状态下的任意两个性能信息的值(性能值)的时间序列的转换函数来生成相关模型,其中将一个序列作为输入,另一个作为输出。该技术将根据相关模型的转换函数的性能值与在另一时间获得的性能信息进行比较,并且基于相关破坏程度来检测故障。
将更加详细地解释专利文献1中描述的技术。图17是示出根据专利文献1中描述的技术包括故障原因提取设备910的故障原因提取系统901的示意性整体配置的说明图。故障原因提取系统901包括作为多个被管理设备的被监控计算机902A,902B,902C,…,以及管理这些计算机902的运行的故障原因提取设备910,它们通过网络903连接从而可以相互通信。
故障原因提取设备910从每个被监控的计算机902A,902B,902C,…获取包括多个性能项目(例如,CPU利用率或者剩余内存容量)中每个性能项目的性能值在内的性能信息,并且基于该性能信息执行如下所述的操作。
此处,性能项目、被管理设备(被监控计算机902)或其组合被定义为性能信息中的一个元素(性能值的类型,或者仅仅是类型)。
图18是示出如图17所示的故障原因提取设备910和被监控计算机902的配置的说明图。如图17所示的被监控计算机902A,902B,902C,…具有与被监控计算机902A相同的配置,在图18中省略了详细描述,它们被共同命名为被监控计算机902。图19是示出图18中所示的故障原因提取设备910的处理流程的说明图。
根据专利文献1所描述的技术,故障原因提取设备910,例如,是一个通用计算机设备,包括作为计算机程序执行的核心的主运算控制单元(CPU:中央处理单元)911,存储数据的存储单元912,通过网络903与其他计算机进行数据通信的通信单元913,以及接受用户(在此情形下为网络管理员)的操作并且呈现处理结果的输入/输出单元914。
在该故障原因提取设备910的主运算控制单元911中,性能信息累积单元922、相关模型生成单元923、相关分析单元924、故障分析单元925和管理员交互单元926中的每个都以计算机程序的形式运行。进而,正常状态性能信息931、相关模型信息932和分析设置信息933中的每个均存储在存储单元912中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于日本电气株式会社,未经日本电气株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201180028026.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种起重机的可变距吊具
- 下一篇:桶