[发明专利]一种大规模服务器监控时的告警阀值设置方法在审
申请号: | 201410721437.4 | 申请日: | 2014-12-03 |
公开(公告)号: | CN104375926A | 公开(公告)日: | 2015-02-25 |
发明(设计)人: | 陆峰;刘成平;李锋 | 申请(专利权)人: | 浪潮电子信息产业股份有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 姜明 |
地址: | 250101 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 大规模 服务器 监控 告警 设置 方法 | ||
技术领域
本发明涉及服务器监控、资源故障告警领域,具体涉及一种大规模服务器监控时的告警阀值设置方法。
背景技术
随着数据中心的飞速发展,大规模的服务器应用越来越成为数据中心的主要特点。在大规模服务器的监控管理中使用自动化的监控系统就成为必然,但是由于规模太大,若要实现每台服务器每项监测数据可以灵活自主的设置合理的、实际环境需要的告警阀值,会给管理员带来非常大的挑战。可想而知,一个拥有上千台服务器的集群化应用,如果对每台服务器上的每项监测参数设置合理、可控的告警阀值,需要投入大量的时间和资源去完成。例如,一个2000台服务器规模的集群进行监控,每台服务器具有50个监测项(如系统CPU利用率、系统物理内存利用率、电源1的功耗、风扇1的转速等均为一个监测项),那么就会产生100000个监测项,要想对这100000个监测项进行合理的、用户可控制的告警阀值设置,用传统的方式首先很难保证设置的正确性,再有也需要很多的资源和时间去完成,一旦需要改动调整,则还要投入大量的时间和资源进行优化,既浪费了大量的人力物力也无法保证调整过程中集群中服务器监控的有效性。以上挑战为大规模服务器监控时告警阀值的设置和设置过程中服务器监控的有效性带了极大的局限性,严重影响大规模服务器监控时告警的合理性和准确性,因此设计大规模服务器监控时的告警阀值设置方法可以有效解决该难题。
发明内容
本发明的设计主要考虑资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性。
资源告警阀值的自循环优化机制和基于模板库的告警阀值批量分发应用,考虑大规模服务器监控时告警阀值的灵活控制非常复杂的特点,采用典型资源优先入资源库进行自循环优化,以及典型资源的告警阀值经过优化后生成模板的设计方法,实现大规模同型号同配置服务器批量应用模板进行告警阀值设置,从而大大降低了大规模服务器监控的过程中进行告警阀值设置的复杂度,提高了告警阀值设置的准确性和合理性,避免了浪费大量人力逐个进行告警阀值设置和人为设置的告警阀值不合理、不统一、无法真实反应资源故障原因等问题。大规模服务器监控时的告警阀值设置方法的设计结构包括:(1)资源配置库模块、(2)资源告警阀值自循环优化模块、(3)资源模板库生成模块、(4)资源模板库管理模块。
所述的资源告警阀值自循环优化模块设计,基于告警阀值经验库,设计自循环优化流程,可使典型资源的每个监测项的告警阀值根据阀值经验库中的数据进行调整,当阀值与经验库中数据相比过高时,便减小阀值;当阀值与经验库中数据相比过低时,便增加阀值,直到达到一种合理、准确的阀值水平,循环结束。其中,判断阀值是否准确、是否合理的依据为资源真正出现故障了才告警并且根据故障的严重程度分级告警。
所述的资源模板库生成模块设计,选择典型的、能够代表某型号某配置服务器的资源,启动其各监测项的告警阀值自循环优化,并根据优化完成的数据生成该型号该配置服务器监控对应的模板,并通过建立模板库的方式对模板进行维护,如添加模板、修改模板和删除模板。资源模板库通过资源库提供的典型资源监控配置生成模板,并由资源模板库管理模块调用,将模板应用到相同型号相同配置的服务器上,通过这种方式完成告警阀值的设置。
所述的资源配置库模块设计,将各种型号各种配置的服务器以资源挂载监测项的方式构建为资源配置库,并为每台服务器的资源配置属性加入告警阀值,为每台服务器提供设置告警阀值的平台,并为资源告警阀值自循环优化模块提供典型资源配置。
所述的资源模板库管理模块设计,其特征在于建立模板批量应用策略,为不同型号不同配置的服务器指定相应的模板,模板由资源模板库中获取,并通过驱动应用策略生效,将获取到的各资源模板分发应用到每个资源、每台服务器上。并且,当该型号该配置服务器的告警阀值需要调整时,只需要统一调整资源模板,然后批量应用即可,无需逐个调整、逐个应用,与此同时,该模块还负责资源模板的整个生命周期管理,从新建到应用到调整再到结束。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮电子信息产业股份有限公司,未经浪潮电子信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410721437.4/2.html,转载请声明来源钻瓜专利网。