[发明专利]一种基于IIC总线的故障定位方法及系统有效
申请号: | 201810953526.X | 申请日: | 2018-08-21 |
公开(公告)号: | CN108880916B | 公开(公告)日: | 2021-06-29 |
发明(设计)人: | 岳远斌 | 申请(专利权)人: | 郑州云海信息技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L12/40 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 450018 河南省郑州市*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 iic 总线 故障 定位 方法 系统 | ||
本发明实施例公开了一种基于IIC总线的故障定位方法及系统,方法包括:获取BMC中的预设温度;扫描IIC总线挂载的设备地址;获取每个设备地址的设备温度;根据所述预设温度以及设备温度进行故障定位。本发明当服务器中读取的预设温度与采集到的设备温度不同时,将读取到的预设温度与经过IIC地址扫描后采集到的设备温度保存至预设文件中,通过比对同一地址下的两个温度是否一致确定发生温度采集故障的地址,进行快速精准的故障定位,整个操作过程中服务器不需要停机,能够提高维护效率。
技术领域
本发明涉及服务器故障维修技术领域,特别是涉及一种基于IIC总线的故障定位方法及系统。
背景技术
随着大数据、云计算、人工智能时代的到来,互联网业务量和数据量出现猛烈增长,计算量及计算频率随之增大;在服务器系统中,随着用于存储和计算的数据量的增加,服务器的运载压力越来越大,其核心部件如CPU、内存、硬盘等发热量变大,机器内部温度升高。在服务器运行过程中,如果环境温度过高,会导致服务器整体工作在一个高温环境中,此时CPU等核心部件本体的温度会更高,当CPU的温度达到一定高度时,服务器就会发生降频,严重影响服务器的计算性能;如果温度继续升高,服务器会发生异常关机,由此所引发的后果则是客户的业务中断,数据丢失,造成的损失不可预估;因此我们需要实时监控服务器的环境温度,保证其在合理温度范围内运行。
服务器系统中,我们通常使用BMC(Baseboard Management Controller,基板管理控制器)来对主板的健康状况进行监控和管理。主板上的一些重要参数如电压、温度、功耗等都是通过BMC监控记录的,服务器的温度监控也是通过BMC内部的IIC模块实现的。服务器温度主要包含环境温度、CPU/内存/硬盘等关键器件温度、入风口温度、出风口温度等等;温度的监控与记录方式基本是一样的,主要包含以下几个部分:一是,BMC通过IIC总线收集服务器关键部位及关键器件的温度寄存器信息,然后在BMC内部进行寄存器数值转化,形成我们所能识别的“摄氏度”,不同器件的总线地址是完全不一样的,因此,会通过多条IIC总线获取多个器件的温度信息;二是,获取到的温度信息会记录在BMC芯片的寄存器中,并显示在BMC WEB界面,以便于实时的观察温度状态变化;对于服务器中所有的需要温度监控的器件,在出厂前均已经定义好唯一的地址,根据需求被监控起来。
但是有时客户为了满足业务新的需求,在服务器中增加了自己单独购买的设备,而对于设备的地址也是设备厂商已经定义好的,这就会导致新增设备的地址和出厂前已定义设备的地址冲突,导致温度误读取,使用户难以定位故障位置,影响了维护效率。
发明内容
本发明实施例中提供了一种基于IIC总线的故障定位方法及系统,以解决现有技术中维护效率的问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明第一方面提供了一种基于IIC总线的故障定位方法,包括:
获取BMC中的预设温度;
扫描IIC总线挂载的设备地址;
获取每个设备地址的设备温度;
根据所述预设温度以及设备温度进行故障定位。
优选地,所述获取BMC中的预设温度具体包括:
通过IPMI抓取BMC中的预设温度。
优选地,获取每个设备地址的设备温度具体包括:
将IIC信号连接至待监控地址;
读取待监控地址对应的温度寄存器数值;
对所述温度寄存器数值进行转化获得设备温度。
优选地,对所述温度寄存器数值进行转化获得设备温度具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于郑州云海信息技术有限公司,未经郑州云海信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810953526.X/2.html,转载请声明来源钻瓜专利网。