[发明专利]智能监控大规模数据中心集群计算节点的系统和方法有效
申请号: | 201410377856.0 | 申请日: | 2014-08-01 |
公开(公告)号: | CN104156296B | 公开(公告)日: | 2017-06-30 |
发明(设计)人: | 刘羽;吕文静;金莲;陈博文;于涛 | 申请(专利权)人: | 浪潮(北京)电子信息产业有限公司 |
主分类号: | G06F11/30 | 分类号: | G06F11/30 |
代理公司: | 北京安信方达知识产权代理有限公司11262 | 代理人: | 王丹,李丹 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 智能 监控 大规模 数据中心 集群 计算 节点 系统 方法 | ||
1.一种智能监控大规模数据中心集群计算节点的系统,包括安装在数据中心集群计算节点上的监控节点、与各个监控节点通信的监控设备、以及用户终端设备,其特征在于:
所述监控节点,用于通过获得计算节点的硬件控制寄存器的控制权,采集所述计算节点的硬件微架构数据指标,通过获得操作系统内核的控制权,获得与所述计算节点上运行的应用程序的进程相关的数据指标,并将所述数据指标发送到监控设备;
所述监控设备,用于接收所述数据指标,基于所述数据指标执行大数据分析,并将所述分析的结果发送到用户终端设备;所述用户终端设备,用于接收所述结果并显示给用户;
所述与所述计算节点上运行的应用程序的进程相关的数据指标包括进程切换次数、堆栈信息、堆内存分配情况中的一种或多种的组合;
监控设备,还用于根据预设统计设置对数据库中保存的数据指标进行大数据处理,并按照预设的分级展示方案,分别为不同的用户提供数据统计和分析结果;
监控设备还具有用户接口,具体用于接收用户自定义的数据挖掘算法,并按照所述数据挖掘算法执行数据挖掘。
2.如权利要求1所述的系统,其特征在于,所述分析包括:根据所述数据指标定位发生故障的计算节点,以及确定故障原因。
3.如权利要求1或2所述的系统,其特征在于:所述硬件微架构数据指标包括CPU的实时浮点运行速度、流SIMD指令扩展集SSE单元利用率、高级向量扩展集AVX单元利用率、向量指令向量化率、完成每条指令所需的时钟数CPI、最后一级缓存LLC命中率、内存带宽、PCI快速总线接口PCI-E设备带宽、缓存命中/未命中率中的一种或多种的组合。
4.如权利要求3所述的系统,其特征在于:所述数据指标为CPU的实时浮点运行速度和/或完成每条指令所需的时钟数CPI,所述分析包括:当所述数据指标在预设时间段内持续低于预设的阈值,则判断处理器发生故障,并确定故障的原因为处理器异常降频。
5.如权利要求1所述的系统,其特征在于:所述监控节点还采集由操作系统提供的CPU利用率、内存利用率、本地磁盘IO数据和/或以太网吞吐量。
6.如权利要求1所述的系统,其特征在于:其中所述计算节点的硬件控制寄存器为所述计算节点的处理器的性能监控单元PMU中的MSR控制寄存器。
7.一种智能监控大规模数据中心集群计算节点的方法,其特征在于:
启动安装在计算节点中的监控节点;
所述监控节点通过获得计算节点的硬件控制寄存器的控制权,采集所述计算节点的硬件微架构数据指标,通过获得操作系统内核的控制权,获得与所述计算节点上运行的应用程序的进程相关的数据指标,并将所述数据指标发送到监控设备;
所述监控设备接收所述数据指标,基于所述数据指标执行大数据分析,并将所述分析的结果发送到用户终端设备;
所述用户终端设备接收所述结果并显示给用户;
所述与所述计算节点上运行的应用程序的进程相关的数据指标包括进程切换次数、堆栈信息、堆内存分配情况中的一种或多种的组合;
监控设备,根据预设统计设置对数据库中保存的数据指标进行大数据处理,并按照预设的分级展示方案,分别为不同的用户提供数据统计和分析结果;
监控设备还具有用户接口,接收用户自定义的数据挖掘算法,并按照所述数据挖掘算法执行数据挖掘。
8.如权利要求7所述的方法,其特征在于,所述分析包括:根据所述数据指标定位发生故障的计算节点,以及确定故障原因。
9.如权利要求7或8所述的方法,其特征在于:所述硬件微架构数据指标包括CPU的实时浮点运行速度、流SIMD指令扩展集SSE单元利用率、高级向量扩展集AVX单元利用率、向量指令向量化率、完成每条指令所需的时钟数CPI、最后一级缓存LLC命中率、内存带宽、PCI快速总线接口PCI-E设备带宽、缓存命中/未命中率中的一种或多种的组合。
10.如权利要求9所述的系统,其特征在于:所述数据指标为CPU的实时浮点运行速度和/或完成每条指令所需的时钟数CPI,所述分析包括:当所述数据指标在预设时间段内持续低于预设的阈值,则判断处理器发生故障,并确定故障的原因为处理器异常降频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮(北京)电子信息产业有限公司,未经浪潮(北京)电子信息产业有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410377856.0/1.html,转载请声明来源钻瓜专利网。