[发明专利]一种计算机故障管理系统的容错方法有效
申请号: | 201110277680.8 | 申请日: | 2011-09-19 |
公开(公告)号: | CN102364448A | 公开(公告)日: | 2012-02-29 |
发明(设计)人: | 刘斌;张东 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 250014 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 计算机 故障 管理 系统 容错 方法 | ||
技术领域
本发明涉及一种计算机应用技术领域, 具体地说是一种计算机故障管理系统的容错方法。
背景技术
随着计算机技术的飞速发展,计算机系统已经广泛应用于国防、教育、科研、工业、金融及社会生活的各个领域之中。在不断追求高计算能力的同时,对于计算机系统可靠性也提出了更高的要求。尤其对于支撑关键应用的计算机系统,一旦其出现故障,造成的后果是难以想象的。因此,在现代计算机系统中设计部署故障管理系统,尤其是高可靠的故障管理系统,以此来保证计算机系统的可靠性是十分必要的。
故障管理系统能够实时检测计算机系统当中的软/硬件错误,根据产生的错误参考诊断规则对错误进行诊断,一旦满足诊断规则的触发条件则立即触发故障,再由专门的故障处理模块执行故障处理(包括故障隔离、故障恢复和故障修复),并根据故障处理的执行结果进行进一步处理。故障管理系统的整个执行过程是由事件驱动,不需要人工参与,具有可预测、自我修复的特点,能够有效避免计算机系统发生故障,从而满足计算机系统可靠性要求。
然而,在追求故障管理系统保证计算机系统可靠性的同时,如何保证故障管理系统的可靠性成为十分关键和重要的前提。因此需要从计算机系统的总体结构性设计出发,综合考虑计算机系统整体可靠性和故障管理系统自身可靠性,提出一种完整优化的故障管理系统容错框架是十分必要的。
由于操作系统内核十分脆弱,容易引起Panic,我们需要尽量避免这种情况提前处理的同时,也需要考虑一旦紧急情况发生时候的急救措施。因此,提出一种故障管理系统具有一定独立性的设计,使其在紧急时刻仍能够运行良好,并能够采取一些紧急处理。
发明内容
本发明的目的是提供一种计算机故障管理系统的容错框架,以保证故障管理系统的可靠性,进而保证计算机系统的整体可靠性。
本发明是按以下方式实现的,以故障管理系统为中心,提供一套完整的容错框架,使其既能保证故障管理系统服务自身的可靠性,也能保证在操作系统内核Panic的情况下故障管理系统仍能够进行紧急处理,从而提高系统的整体可用性,该框架分为用户空间和内核空间两部分,其中:
用户空间包括:故障管理核心单元1),故障管理冗余单元2),代理接收模块3)和代理发送模块4);其中:
故障管理核心单元1):是整个框架在用户空间部分的核心,负责错误收集、故障诊断以及故障处理,包括故障隔离、故障恢复和故障修复;采用检查点机制,定期保存当前错误处理状态信息;故障管理核心单元由错误检测模块(1)、事件分发模块(2)、诊断引擎模块(3)、故障处理模块(4)和检查点处理单元(5)组成,其中:
错误检测模块(1),针对系统不同组件部署多个错误检测模块,具体组件涉及文件系统、应用程序和服务以及提供用户空间检测手段的硬件组件,错误检测模块主动将自己生成的错误事件加入事件分发模块事件缓冲区;
事件分发模块(2),负责向故障管理核心单元各模块主动分发事件,事件包括错误事件和故障事件,事件分发模块遍历事件缓冲区中每一个事件,如果是错误事件,则将事件发给诊断引擎模块的归并单元,如果是故障事件,则查询故障处理模块哈希表,将故障事件发给指定故障处理模块;
诊断引擎模块(3),包含一套诊断规则,针对每一类故障事件创建一个归并单元,由归并单元产生故障事件,并加入事件分发模块的事件缓冲区;
故障处理模块(4),针对系统不同组件部署多个故障处理模块,组件涉及CPU、内存和I/O以及应用程序,故障处理方式包括故障隔离、故障恢复和故障修复,根据故障处理结果选择更优的故障处理方式;
检查点处理单元(5),由检查点信息收集模块①、检查点创建模块②和检查点回滚模块③组成;检查点处理单元负责收集故障管理核心单元各组件信息,创建检查点消息以及回滚检查点;
故障管理冗余单元2):是故障管理核心单元的冗余组件,负责接收故障管理核心单元的心跳及监控故障管理核心单元的工作状态;定期将故障管理核心单元的检查点信息保存至检查点文件中,故障管理冗余单元和故障管理核心单元相互监听对方心跳,当心跳超时,故障管理冗余单元则立即重启对方单元的执行进程,故障管理冗余单元工作流程如下:
a)交互模块接收检查点处理单元发送的检查点消息,保存至检查点消息缓冲区,当消息数目达到预设阀值时,由信息保存模块将消息缓冲区中所有消息保存至检查点文件;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110277680.8/2.html,转载请声明来源钻瓜专利网。