[发明专利]具备环面网络的并行计算机系统上的故障恢复有效
申请号: | 200880012261.8 | 申请日: | 2008-03-20 |
公开(公告)号: | CN101657796A | 公开(公告)日: | 2010-02-24 |
发明(设计)人: | A·彼得斯;A·塞德尔尼克;D·达灵顿;P·J·麦卡斯 | 申请(专利权)人: | 国际商业机器公司 |
主分类号: | G06F11/00 | 分类号: | G06F11/00;G06F15/173 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 赵 冰 |
地址: | 美国*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 网络 并行 计算机系统 故障 恢复 | ||
技术领域
本发明总体上涉及并行计算机系统中的故障恢复,更具体地说, 涉及一种用于从海量并行超级计算机中的环面网络的故障部分实现故 障恢复的装置。
背景技术
高效故障恢复对于降低精密计算机系统的停机时间和修复成本 来说是很重要的。在具有大量运算节点的并行计算机系统上,单个元 件的故障可能会使计算机的大部分都不得不离线维修。
海量并行计算机系统是一种具有大量互联运算节点的并行计算 机系统。这种海量并行计算机家族由国际商业机器公司(IBM)以Blue Gene为名开发出来。Blue Gene/L系统是一种可扩展系统,其中目前 运算节点的最大数目达到65536个。Blue Gene/L节点由带有两个CPU 和内存的单个ASIC(专用集成电路)组成。整个计算机被装在64个 机架或机柜中,每个机架内有32个节点板。
Blue Gene/L超级计算机经由多个通信网络进行通信。65536个 运算节点被布置成一个逻辑树网络和一个三维环面网络。该逻辑树网 络把运算节点连接成树结构,使每个节点与一个父节点和一个或两个 子节点进行通信。环面网络将运算节点逻辑连接成三维网格状的结构, 其允许每个运算节点与计算机的一个扇区内其最近的6个相邻节点进 行通信。由于运算节点被布置成需要与邻近节点进行通信的环面网络 和树网络,单个节点的硬件故障就可能使该系统的大部分停机,直至 故障硬件能够得到修复。例如,单个节点故障或网络连接可能导致计 算机系统的一个分区内的环面网络的一个维度不可操作。另外,分配 给故障分区的所有硬件也可能需要离线,直至故障得以纠正。
在具备环面网络的现有技术系统上,单个节点或网络连接的故障 往往需要计算机离线进行维修。当环面网络发生了一个故障时,有利 的是能够尽可能迅速有效地克服该故障。如果没有更有效地克服环面 网络故障的手段,并行计算机系统将继续浪费潜在的运算处理时间, 增加了操作和维护成本。
发明内容
根据优选的实施例,描述了一种用于克服并行计算机系统中环面 网络故障的装置和方法。当在环面网络中出现故障时,计算机系统的 服务节点中的网状(mesh)路由机构将节点由环面网络配置成网状网 络。网状路由机构利用了每个节点中的捷径寄存器的优点,从而使经 由网络传输的数据在各节点之间进行路由时不经过发生故障的节点或 网络连接。
所述的例子和描述涉及了Blue Gene结构,但是也可以扩展到具 有布置成网络结构的多处理器的任何并行计算机系统,其中节点硬件 句柄使数据流从其它节点走捷径通过。
前面所述的以及其它的特征和优点将通过下面更加具体的描述 而变得更为清楚,如在附图中所示。
附图说明
下面将仅以示例方式参照附图描述本发明的实施例,图中:
图1是按照优选实施例的海量并行计算机系统的框图;
图2是示出了海量并行计算机系统中一个运算节点的输入和输出 连接的框图;
图3是海量并行计算机系统中一个运算节点的框图;
图4是海量并行计算机系统中一个中间面的框图;
图5是示出了诸如海量并行计算机系统这样的高度互联的计算机 系统的一个分区的框图;
图6是与环面网络相连的一系列节点的框图;
图7是示出了利用捷径寄存器对网络数据流进行路由的节点通信 的一个例子的框图;
图8是示出了利用捷径寄存器对网络数据流进行路由的节点通信 的一个例子的另一个框图;以及
图9是利用捷径寄存器对网络数据流进行路由的方法流程图。
具体实施方式
这里所公开和要求保护的内容涉及用于克服并行计算机网络中 的环面网络故障的装置和方法。计算机系统的服务节点中的网状路由 机构利用每个节点中的捷径寄存器而将节点由环面网络配置成网状网 络,从而使传输的数据在各节点之间进行路由时绕过发生故障的节点 或网络连接。将借助国际商业机器公司(IBM)所开发的Blue Gene/L 海量并行计算机来描述优选的实施例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国际商业机器公司,未经国际商业机器公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200880012261.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据保管方法、客户端装置、存储装置以及程序
- 下一篇:低噪声电压基准电路