[发明专利]群集系统中管理故障转移的装置和方法有效
申请号: | 201210047999.6 | 申请日: | 2012-02-28 |
公开(公告)号: | CN103297396A | 公开(公告)日: | 2013-09-11 |
发明(设计)人: | 白海瑞 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
代理公司: | 北京市中咨律师事务所 11247 | 代理人: | 周良玉;于静 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 群集 系统 管理 故障 转移 装置 方法 | ||
技术领域
本发明涉及集群系统,更具体而言,涉及集群系统中管理故障转移的装置和方法。
背景技术
信息技术的发展为人们提供了越来越丰富和强大的应用和服务,同时也对处理设备的运算能力和存储能力提出了越来越高的要求。为此,提出了集群系统来存储和处理海量信息和数据,并以高度可用性为用户提供各种服务。
集群系统由一组计算设备构成,所述计算设备通过硬件和软件互相连接,共同操作,从而作为单系统映像来提供服务。这样的计算设备被称为集群中的节点。对于大多数集群系统,为了保持单系统映像,需要防止集群由于节点故障或节点间通信设施的故障而分裂成多个独立系统。也就是说,如果节点从主集群断开连接从而不能与单系统映像保持一致和更新,那么首先要确保该节点停止处理客户请求,然后才能允许主集群进行进一步的操作,将该断连节点执行的工作重新分配到集群中的存活节点。在允许主集群前进之前必须关停断连节点,这意味着,关停断连节点所花费的时间决定了主集群所提供的服务在从故障或断连节点恢复过来的过程中变得不可用的最小时间。因此,为了创建一个高可用的容错集群系统,非常关键的就是缩短关停断连节点所花费的时间,使得主集群能够在节点或节点间连接出现故障之后尽快恢复其可用性。
现有技术中已经提出了多种方案来关停故障节点,并确保集群以单系统映像继续其操作。一种方案是基于租约(lease)的机制。租约允许节点代表集群来提供服务。相应地,基于租约的机制在集群的节点之间传递消息来为节点授权租约,从而限定节点被允许以集群的名义进行操作的时间周期。在失去通信联系的情况下,从集群断连的节点就不再能够接收到租约更新消息,于是在其租约到期的时候会主动地停止集群服务。另一方面,主集群会等待不少于租约周期的时间(通常是租约周期加上一些额外的时间以考虑到时钟的偏移),然后才能够确认断连的节点已经关停,从而允许将故障节点的工作转移到集群中的存活节点。
如上所述,租约时间限定了出现故障之后服务不可用的最小时间段。因此,集群使用的租约时间越短,故障转移的时间越快。然而,同时,租约时间越短,集群中的节点就要越频繁地延长其租约,于是维持租约的成本和开销就越大。也就是说,基于租约的机制对于租约时间具有相互矛盾的要求,一方面有必要使得租约时间尽量短以允许集群的快速回复,另一方面,又希望租约时间足够长来减小租约更新的频率,防止集群节点过量负载时出现假性的租约到期。针对租约时间的矛盾要求意味着,利用基于租约的机制,很难实现集群服务的快速恢复。
为了促进集群服务的迅速恢复,还提出了改进的基于租约的机制。在这样的改进机制中,节点如果知道它即将出现故障或从集群断连,就会向集群中的其他节点发送一个租约放弃消息,以此来主动放弃租约的继续。该消息使得主集群能够知晓故障节点已经关停,而不必等待整个租约周期,因此主集群能够快速恢复可用性。这对于传统的基于租约的机制来说是一项很有用的改进,但是它仅仅在节点能够意识到它即将出现故障而同时又足够正常来发出放弃消息的情况下适用。在很多情况下,节点突然出现故障或失去连接,这时,主集群仍然需要至少等待一整个租约周期来确保租约已经到期。因此,上述改进的机制的应用非常有限。
另一种关停故障节点的方案称为STONITH机制。STONITH是击中另一节点的头部(shoot-the-other-node-in-the-head)的缩写,它描述了这样一种机制,其中存活的集群节点利用硬件机制直接迫使嫌疑节点关停。利用STONITH机制,可以很容易地使得关停断连节点的时间非常短,从而允许集群快速恢复。然而,STONITH机制要求在其操作的临界时期具有存活的通信路径,因此并不适用于涉及远程节点通信的集群系统。
因此,希望提出一种方案,能够有效地管理节点的连接和故障转移,从而提供高可用性的集群系统。
发明内容
鉴于以前提出的现有技术中存在的问题,提出本发明,以改进集群系统的可用性。
根据本发明一个实施例,提供一种在集群系统中管理故障转移的装置,所述集群系统包括通过第一组链路彼此连接的多个子集群,每个子集群包括通过第二组链路彼此连接的多个节点,所述装置包括:确定单元,配置为通过第二组链路中的至少一个确定同一子集群中的嫌疑节点已经关停;以及通知单元,配置为响应于所述确定,代表所述嫌疑节点发送租约放弃消息。
根据本发明另一实施例,提供一种集群系统中的节点,所述节点包括根据前一实施例所述的装置。
根据本发明又一实施例,提供一种集群系统,包括根据前一实施例所述的节点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210047999.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:线下线上数据融合方法及系统
- 下一篇:一种OFDM系统的符号同步方法