[发明专利]一种动态调整内存监控阀值的方法在审
申请号: | 201510984888.1 | 申请日: | 2015-12-25 |
公开(公告)号: | CN105589789A | 公开(公告)日: | 2016-05-18 |
发明(设计)人: | 李双星 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 调整 内存 监控 方法 | ||
技术领域
本发明涉及服务器内存监控,具体涉及一种动态调整内存监控阀值的方法。
背景技术
随着各内存厂家的颗粒制程的减小,电容储存电荷的能力变小,影响和干扰变大,MOS管控制力弱,漏电流容易发生。尤其是单内存颗粒容量的不断增加,颗粒中的CELL电容电平判断更易受到扰动,近年来ECC问题显现越来越明显。
少量的可纠正ECC错误不会影响系统的稳定运行,不会引起系统宕机。但是当发生频繁的可纠正ECC错误时,如果不根据监控阀值将其更换,就会影响系统的稳定运行。
当发生ECC错误时,需要CPU进行纠正,可能会带来一定的性能损失。对于一般的应用场景而言,可以适当提高内存ECC监控阀值,减少停机次数和维护成本。但是对于一些高性能等应用,就要降低阀值,以保证运算性能。
内存ECC监控阀值一般是写入BIOS中,或者通过BIOSsetup选项来调整,不方便灵活地根据业务场景来调整。
发明内容
本发明的技术任务是针对现有技术的不足,提供一种动态调整内存监控阀值的方法。本方法可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。
本发明解决其技术问题所采用的技术方案是:
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明的一种动态调整内存监控阀值的方法与现有技术相比,所产生的有益效果是,本发明可以通过BMC带外来获取实时的可纠正ECC错误数量,根据设定的阀值触发报警,提示系统管理员采取相应措施。以便其及时将有隐患内存更换,避免对业务产生不良影响。
附图说明
附图1是本发明一种动态调整内存监控阀值的方法流程图。
具体实施方式
下面结合附图对本发明的一种动态调整内存监控阀值的方法作以下详细地说明。
一种动态调整内存监控阀值的方法,通过BMC(BaseboardManagementController)基板管理控制器,获取CPU记录的内存可纠正ECC(Error-CorrectingCode)错误的数量;根据业务对内存可纠正ECC错误的要求,设定监控阀值,当监控到内存可纠正ECC错误的数量超过阀值时,自动触发报警,并提示系统管理员采取相应措施;其实施步骤为:1)、设定参数;2)、执行脚本;3)、开始监控;4)、判断是否超过阀值;5)、故障处理。
进一步的,该方法通过PECI(PlatformEnvironmentControlInterface)接口,获取CPU记录的内存可纠正ECC错误的数量。
根据实际的网络环境,修改IP为被监控服务器BMC的管理IP。
根据业务要求,修改threshold为监控阀值,修改interval为监控周期。
设定参数时,将MemoryMonitor.sh拷贝至系统/opt目录下,并赋予执行权限。
执行脚本对服务器内存进行监控,当发现内存可纠正ECC错误数量超过阀值时,自动发邮件报警。
本发明包含一个shell脚本MemoryMonitor.sh,内容如下:
#!/bin/bash
threshold=1024
interval=3600
IP=192.168.100.100
whiletrue
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510984888.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据传输缓冲装置
- 下一篇:一种故障定位方法及服务器