[发明专利]一种基于国产龙芯处理器间互连的计算机故障容错装置有效
申请号: | 201510854445.0 | 申请日: | 2015-11-30 |
公开(公告)号: | CN106815093B | 公开(公告)日: | 2020-08-21 |
发明(设计)人: | 黄晨;施清平;白健;安雪岩;罗一丹;汪文明;易航;张利彬 | 申请(专利权)人: | 北京宇航系统工程研究所;中国运载火箭技术研究院 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 核工业专利中心 11007 | 代理人: | 吕岩甲 |
地址: | 100076 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 国产 处理器 互连 计算机 故障 容错 装置 | ||
1.一种基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,该装置包括主计算机系统模块和从计算机系统模块;主计算机系统模块和从计算机系统模块都包括:CPU单元、北/南桥单元、存储单元、接口单元、供电单元;CPU单元包括龙芯3A多核处理器,主计算机系统模块的CPU单元和从计算机系统模块的CPU单元通过HT总线接口实现互连;存储单元包括内存、启动ROM和硬盘;龙芯3A多核处理器集成2组独立的HT总线接口,HT0总线接口和HT1总线接口,主计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口与从计算机系统模块CPU单元的龙芯3A多核处理器HT0总线接口连接,实现主计算机系统模块和从计算机系统模块的互连;HT1总线接口与北/南桥单元的HT总线接口相连接,龙芯3A多核处理器未使用管脚通过电阻下拉;
龙芯3A多核处理器为龙芯3A四核处理器;北/南桥单元包括RS780E北桥芯片和SB710南桥芯片;存储单元包括DDR内存、启动配置ROM和硬盘,HT总线为16位或8位HT总线;
该装置正常工作时,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致;
主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息和实时信息中,与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中,与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障。
2.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作。
3.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常。
4.根据权利要求1所述基于国产龙芯处理器间互连的计算机故障容错装置,其特征在于,当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常。
5.一种利用权利要求1所述的基于国产龙芯处理器间互连的计算机故障容错装置进行计算机故障容错的方法,其特征在于,该方法包括以下步骤:步骤一、故障诊断;主计算机系统模块和从计算机系统模块间的CPU单元龙芯3A处理器通过HT0总线实现龙芯3A处理器的GPIO和INT相互连接;实现主计算机系统模块CPU单元和从计算机系统模块CPU单元之间中断握手操作,实现主计算机系统模块和从计算机系统模块的相互监测与备份,避免故障串扰和时钟差异的存在;从计算机系统模块或主计算机系统模块通过利用供电单元的称供电信号构成逻辑判断,并将判断结果传送给主计算机系统模块或从计算机系统模块;从计算机系统模块或主计算机系统模块,通过接口单元采集主计算机系统模块或从计算机系统模块的实时信息,实时信息包括电流信号、电压信号和温度信号;当从计算机系统模块或主计算机系统模块采集到对方的供电信息、实时信息和握手信息中;1)与被采集的主计算机系统模块或从计算机系统模块的接口单元相关的供电信息和实时信息中任一信息超出了设定的故障限时,认为被采集的主计算机系统模块或从计算机系统模块的接口单元发生故障;2)与被采集的主计算机系统模块或从计算机系统模块的CPU单元相关的供电信息和实时信息、以及被采集的主计算机系统模块或从计算机系统模块的CPU单元的握手信息中,任一信息超出了设定的故障限,认为被采集的主计算机系统模块或从计算机系统模块的CPU单元故障;3)否则,认为被采集的主计算机系统模块或从计算机系统模块工作正常;步骤二、故障容错;1)当从计算机系统模块诊断出主计算机系统模块的接口单元故障时,认为主计算机系统模块接口单元失效,从计算机系统模块的CPU单元仍保持通过HT总线接口获取主计算机系统模块的CPU单元进程操作数据,从计算机系统模块的接口单元将取代主计算机系统模块的接口单元完成对外信息交互工作;2)当从计算机系统模块诊断出主计算机系统模块的CPU单元故障时,认为主计算机系统模块的CPU单元失效,从计算机系统模块利用存储单元的硬盘之中同步备份的主计算机系统模块存储单元的硬盘中的操作数据,从计算机系统模块的CPU单元取代主计算机系统模块的CPU单元完成对外信息交互工作,独立保证信息系统工作的正常;3)当主计算机系统模块诊断出从计算机系统模块接口单元或CPU单元故障时,认为从计算机系统模块接口单元或CPU单元失效,主计算机系统模块将断开与从计算机系统模块之间的HT总线互连,停止采集从计算机系统模块的握手信息、供电信息和实时信息,主计算机系统模块将独立保证信息系统工作的正常;4)否则,由主计算机系统模块完成该装置的控制与数据管理工作,从计算机系统模块通过HT总线跟踪主计算机系统模块CPU单元的进程操作及工作状态,并在从计算机系统模块存储单元的硬盘中同步备份主计算机系统模块存储单元硬盘中的数据,利用高速缓存一致性协议,保证主计算机系统模块和从计算机系统模块的数据与缓存状态均保持一致。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宇航系统工程研究所;中国运载火箭技术研究院,未经北京宇航系统工程研究所;中国运载火箭技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510854445.0/1.html,转载请声明来源钻瓜专利网。