[发明专利]一种PCIe链路故障自动修复的系统、方法和一种服务器在审
申请号: | 202310565005.8 | 申请日: | 2023-05-18 |
公开(公告)号: | CN116643904A | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 田东顺;程子强 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06F11/22 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 刘丙松 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 pcie 故障 自动 修复 系统 方法 服务器 | ||
本发明提出了一种PCIe链路故障自动修复的系统、方法和一种服务器,该系统包括:中央处理器、链路管理单元、交换芯片和中转单元;中央处理器分别与交换芯片、中转单元和链路管理单元通信连接;链路管理单元分别与交换芯片和中转单元通信连接,且中转单元还与交换芯片通信连接;链路管理单元获取中央处理器和交换芯片所在主链路的设备工作状态,当获取到主链路故障时,将主链路设备切换至中转单元所在的备用链路,通过备用链路连接到中央处理器,基于该系统,还提出了一种PCIe链路故障自动修复的方法和一种服务器。本发明实现了当监控到物理故障时,立即禁用故障链路,并启动备用链路,同时将设备挂载到备用链路后,恢复系统业务运行。
技术领域
本发明属于PCIe链路故障修复技术领域,特别涉及一种PCIe链路故障自动修复的系统、方法和一种服务器。
背景技术
随着ChatGPT、高性能运算、云游戏、视频直播的迅速发展,异构运算设备的广泛应用。为了获取强大的异构计算能力和扩展性能,通常将CPU运算和GPU运算分成服务器和GPUBOX两个独立的设备,两个设备之间使用PCIe高速线缆连接通信。其中CPU:(CentralProcessing Unit/Processor),中央处理器;GPU:(Graphics Processing Unit)图形处理器。
由于CPU PCIe端口数量较少,为了能够连接更多数量的PCIe设备,会使用PCIeSwitch芯片扩展。CPU在服务器中,PCIe Switch芯片和PCIe设备在GPU Box装置中。CPU与PCIe Switch之间使用PCIe高速线缆连接,当两个芯片之间的连接出现物理故障时,Switch下行连接的全部PCIe设备都无法使用。设备停机后,人工维修故障链路,PCIe链路物理故障时,所连接的PCIe设备,无法被使用,需要在停机后,由运维人员维修。
发明内容
为了解决上述技术问题,本发明提出了一种PCIe链路故障自动修复的系统、方法和一种服务器,实现当监控到物理故障时,立即禁用故障链路,并启动备用链路。同时将PCIe设备挂载到备用PCIe链路后,恢复系统业务运行。
为实现上述目的,本发明采用以下技术方案:
一种PCIe链路故障自动修复的系统,包括中央处理器、链路管理单元、PCIe交换芯片和中转单元;
所述中央处理器分别与PCIe交换芯片、中转单元和链路管理单元通信连接;所述链路管理单元分别与PCIe交换芯片和中转单元通信连接,且中转单元还与PCIe交换芯片通信连接;
所述链路管理单元用于获取中央处理器和PCIe交换芯片所在主链路的PCIe设备工作状态,当获取到主链路故障时,停用主链路对应的上行接口,将主链路PCIe设备切换至中转单元所在的备用链路,通过备用链路连接到中央处理器。
进一步的,所述PCIe交换芯片为一个或者多个。
进一步的,所述中央处理器通过通信端口与PCIe交换芯片和中转单元连接;所述中转单元通过还通信端口与PCIe交换芯片连接。
进一步的,所述链路管理单元包括基板管理控制器和南桥;
所述中央处理器通过DMI总线南桥通信连接;南桥通过ESPI总线与基板管理控制器通信连接;所述基板管理控制器分别通过UART与PCIe交换芯片通信连接。
进一步的,链路管理单元获取中央处理器和PCIe交换芯片所在主链路的PCIe设备工作状态的过程为:南桥通过轮询中央处理器中PCIe引脚状态寄存器获取PCIe设备的连接状态。
进一步的,南桥在获取到PCIe设备工作状态之后,当发现主链路断开时,将所有丢失PCIe设备信息的标识符通过ESPI接口发送至基板管理控制器;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310565005.8/2.html,转载请声明来源钻瓜专利网。