[发明专利]一种用于双控高可用系统的同步检测和故障隔离方法无效
申请号: | 200810014300.X | 申请日: | 2008-02-28 |
公开(公告)号: | CN101237315A | 公开(公告)日: | 2008-08-06 |
发明(设计)人: | 田国航 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | H04L1/22 | 分类号: | H04L1/22;H04L12/24;H04L12/56 |
代理公司: | 济南信达专利事务所有限公司 | 代理人: | 姜明 |
地址: | 250014山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 双控高 可用 系统 同步 检测 故障 隔离 方法 | ||
1、技术领域
本发明涉及计算机系统及通信领域,具体涉及双控制器系统高可用的实现方法。
2、技术背景
为了提高存储系统的高可用性,一般都采用双控制来保证系统的高可用性。根据两个控制器之间的关系,又可以分为A/A模式和A/P模式。
A/P模式的特点就是我们传统认为的主从热备,当主控制器发生故障的时候,从控制器接管住控制器的IP地址和服务,从而实现系统的高可用,这种模式的缺点是没有充分利用两个控制器的,正常运行时从控制器出于闲置状态,造成资源的浪费;
A/A模式的特点是两个控制没有主从之分,并行工作,做到了负载均衡,相互检测热备,既提高了系统的高可用性,又不影响系统的性能。但是这种模式面临的问题是如何解决双控制器之间进行同步状态检测和即时通信的问题,以及如何进行实时故障隔离。
3、发明内容
为了解决双控制器之间的高可用的故障隔离问题,本发明提供了一种用于双控高可用系统的同步检测和故障隔离方法,这种方案不依赖于具体的硬件和系统类型,能够有效降低部署和使用成本。
本发明中涉及了三个核心的方法,资源检测方法,服务切换方法和故障隔离方法。
在系统中设置主从两个控制器,两个控制器之间通过集成在PCI的主板上、串口或是网卡连线上的专有通道来进行相互监听对方的的HADaemon进程,在发生故障的时候:主从控制器的控制步骤如下:
(1)主控制器释放服务的虚拟IP,从控制通过ARP欺骗,接管IP;
(2)主控制器的资源被挂起,并将状态信息发送到从控制器上,启动相关服务,实现资源的无缝切换;
(3)在IP接管和服务切换的时,通过邮件日志方式记录发出告警;
(4)主控制器恢复之后选择接管服务或不予接管作为同步检测的备份;
(5)为了提高心跳传输的高可用性,采用网卡和串口并用的措施,避免链路单点故障;
(6)主控制器对外服务的网络发生故障,同样会被HADaemon检测并触发从控制器对虚拟IP的接管和资源切换。
将不同的服务分别在主从两个控制器上运行,每次出现故障的时候只需要迁移一个服务既实现控制器资源的充分利用,达到负载均衡和提高了故障恢复能力的目的。
采用网卡和串口并用的措施,避免链路单点故障。
主控制器恢复之后选择接管服务或不予接管作为同步检测的从控制器使用。
本发明的优异效果是,方案不依赖于具体的硬件和系统类型,能够有效降低部署和使用成本。保证系统高效可靠运行。
4、附图说明
图1是DCHA的软件层次结构图;
图2是DCHA的实现协作示意图。
5、具体实施方式
参考附图对本发明的用于双控高可用系统的同步检测和故障隔离方法作以下详细的说明。
(一)资源检测方法中通过三个模块来实现:分别是Agents,HADaemon和Heartbeat。
Agents用来监测一些重要的硬件和软件资源的可靠性。这些资源包括如下内容:控制器;网络接口通信连接(通信服务);在线存储系统(文件服务,磁盘服务);重要的系统及应用程序。
HA(HA Daemon)是DCHA的核心部分。它主要完成以下工作:(1)监测控制器,看是否所有用来执行主服务的资源都是可靠的;(2)根据HA的配置文件对控制器进行配置;(3)执行指定的主服务;(4)执行主服务的Agents;(5)通过Agents来监测控制器及服务的所有进程;(6)管理用来恢复故障服务的冗余硬件资源;(7)根据接收到的控制器心跳及Agents心跳,处理相应的事件日志、错误处理及在线恢复工作。
HeartBeat(心跳)包括Agents心跳和控制器心跳:通过周期性的Agents心跳,Agents会将服务的可靠性通知HA Daemon。Agents心跳是通过共享内存来实现的,如果服务的可用性出现问题,Agents会停止向HA管理器发送心跳。Agents心跳在预定时间内的丢失预示着它所监测的服务出现了故障,此时,HA会执行服务的切换进程。通过周期性的控制器心跳,控制器会将自身的可靠性通知对方控制器。控制器心跳是通过基于TCP/IP的Socket或RS-232线来传送的,如果控制器出现故障,HA管理器将向对方发送死的心跳,或停止发送心跳。此心跳在一定时间内的丢失预示着此控制器已出现故障,此时,HA将开始执行服务的切换过程。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810014300.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能观赏鱼喂食器
- 下一篇:一种便于取蜜的摇蜜机