[发明专利]一种高速互连网络拓扑发现方法,装置,介质及高性能计算系统有效
申请号: | 202010402677.3 | 申请日: | 2020-05-13 |
公开(公告)号: | CN111585821B | 公开(公告)日: | 2022-07-19 |
发明(设计)人: | 曹继军;徐炜遐;常俊胜;刘路;戴艺;肖灿文;王强;王武芳;徐佳庆;熊泽宇;翦杰;王子聪 | 申请(专利权)人: | 中国人民解放军国防科技大学 |
主分类号: | H04L41/12 | 分类号: | H04L41/12 |
代理公司: | 湖南兆弘专利事务所(普通合伙) 43008 | 代理人: | 谭武艺 |
地址: | 410073 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高速 互连 网络 拓扑 发现 方法 装置 介质 性能 计算 系统 | ||
本发明公开了一种高速互连网络拓扑发现方法,装置,介质及高性能计算系统,其中拓扑发现方法的步骤包括从本节点的网络接口芯片开始读取对端标记信息并加入种子队列,针对种子队列逐步迭代寻找对端标记信息记入邻接表并构建指向该对端网络接口芯片的源路由表表项,最后将邻接表表达的实际拓扑结构和期望拓扑结构进行对比以发现错误的端口连接关系,本发明还公开前述高速互连网络拓扑发现方法对应的装置、介质及高性能计算系统。本发明支持快速实现网络拓扑结构发现、支持对实际拓扑结构和期望拓扑结构进行对比,以发现错误的端口连接关系,从而缩短互连网络调试时间、提高互连网络构建效率。
技术领域
本发明主要涉及高性能计算系统高速互连网络领域,具体涉及一种高速互连网络拓扑发现方法,装置,介质及高性能计算系统。
背景技术
高性能计算系统的生命周期主要由三部分构成:一是计算系统的构建时间,包括各个子系统硬件和软件安装、配置、调试、测试等过程;二是计算系统正常运营时间,即计算系统能够为高性能计算应用提供服务的时间;三是系统的故障处理时间,某些轻微的系统故障可以在线诊断并处理,而个别严重故障需要应用下线后处理甚至停机维护。随着计算系统规模的增大,计算系统构建时间占其整个生命周期的比例通常也会增大。
高速互连网络是高性能计算系统全局性基础设施,通常由网络接口芯片(NetworkInterface Chip,简记为NIC)和网络交换芯片(Network Routing Chip,简记为NRC)连接而成。高速互连网络是构成计算系统并实现系统中各个计算节点协同工作的关键部件,其复杂性往往使得互连网络构建成为计算系统构建中最耗时间的过程。所以,互连网络子系统的构建时间通常会明显地影响整个计算系统的构建时间。互连网络构建的具体环节通常包括:物理布局设计、拓扑结构检查、网络参数配置和网络调试等。
当前,绝大部分高性能计算系统的互连网络采用光电混合互连技术,即第一层次是通过PCB(Printed Circuit Board)板内的金属导线实现部分交换芯片端口间的互连,以构成各种交换模块;第二层次是通过电背板实现交换模块上的交换芯片端口与计算主板网络接口间的连接,以及不同交换模块之间的短距离互连;第三层次是通过有源光纤AOC(Active Optical Cable)实现交换模块上部分网络芯片端口之间的长距离互连。与通过背板和PCB板上金属线实现交换芯片端口之间的固定连接关系不同,光纤连接在网络构建过程中往往由于人为因素(例如光纤标签贴错、光纤位置插错、光纤连接器未插紧、光纤损坏等)而可能偏离网络拓扑结构的设计预期,这是网络调试阶段必须首先排除的错误。一种高效的方法就是互连网络及其管理工具提供拓扑检查的功能,从而通过比较实际发现的拓扑与设计的拓扑之间的差异,以判断实际拓扑结构的正确性并纠正可能的错误端口连接关系。
目前,InfiniBand协议定义了一种互连网络拓扑发现的方法,其主要特征为:(1)支持单一的带内接口访问网络芯片的寄存器;(2)每个网络芯片具有标记芯片唯一性的GUID(Globally Unique Identifier,全球唯一的标记);(3)芯片的GUID标记由网络生产厂家写入,不支持被管理用户配置。由于每个网络芯片具有全球唯一的GUID标记和基于带内的芯片寄存器访问接口,高性能计算机系统搭建后,网络管理软件通过读取系统中网络芯片的GUID信息,可以获取高性能计算机系统的实际拓扑结构,因此,InfiniBand互连网络具备拓扑结构发现功能。但是,InfiniBand互连网络在拓扑结构检查功能方面存在的问题主要是:(1)由于标记网络芯片唯一性的GUID无法由管理用户根据网络拓扑结构分配并配置到网络芯片,无法获取高性能计算机系统搭建前的期望拓扑结构,因此无法实现拓扑结构检查;(2)由于网络芯片的端口不具备与对端网络芯片交换GUID信息功能,因此其拓扑发现过程无法简单地通过读取网络芯片本地端口寄存器而直接获得其对端网络芯片的GUID信息。因此,需要设计一种完善的互连网络拓扑结构检查装置和方法,既能便于在网络芯片硬件逻辑和网络管理软件实现拓扑结构检查,又能满足网络调测试人员快速检查网络拓扑结构的需求。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军国防科技大学,未经中国人民解放军国防科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010402677.3/2.html,转载请声明来源钻瓜专利网。