[发明专利]一种基于集群的故障感知系统及其方法有效
申请号: | 201310711737.X | 申请日: | 2013-12-20 |
公开(公告)号: | CN103746829B | 公开(公告)日: | 2017-04-05 |
发明(设计)人: | 杨庆林;孙毓忠;宋莹 | 申请(专利权)人: | 中国科学院计算技术研究所 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京律诚同业知识产权代理有限公司11006 | 代理人: | 祁建国,李岩 |
地址: | 100190 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集群 故障 感知 系统 及其 方法 | ||
技术领域
本发明涉及故障检测系统及方法,尤其涉及运行应用程序的服务器集群故障检测系统及方法领域。
背景技术
在当前云计算和大数据的推动下,企业的需求不断发展,其数据中心的服务器数量的也在持续扩充,运行在服务器上的操作系统和应用软件中的功能模块数量也在飞速增加,模块之间调用关系的复杂度大大提高。而基于成本的角度考量,单位人员维护的应用服务器数量越来越多,这样使得面向应用级的故障检测技术对于企业变得日益重要和迫切。
在文献Detecting application-level failures in component-based internet services.IEEE Trans.on Neural Networks:Special Issue on Adaptive Learning Systems in Communication Networks,16(5):1027–1041,Sep2005中(作者为:E.Kiciman and A.Fox.),公开了一种为使用应用程度的诸如请求路径等的具体信息,进而检测程序的异常,这不仅似的检测系统具有入侵性和非常高的负载,而且在实际生产中也不可行。当前针对于大数据计算、企业云服务等频繁进行I/O操作和数据计算的服务器集群进行故障检测的方法有很多,有些采用与应用无关的系统级数据量度,如:文献Fingerprinting the Datacenter:Automated Classification of Performance Crises.In EuroSys,Apr2010,作者为:P.Bodik,M.Goldszmidt,A.Fox,D.Woodard,and H.Andersen.,和文献Problem Diagnosis for MapReducebased Cloud Computing Environments.In IEEE/IFIP NOMS,Apr2010,作者为:J.Tan,X.Pan,S.Kavulya,E.Marinelli,R.Gandhi,and P.Narasimhan.Kahuna中公布的方法。
需要同时从所有的系统中获取指标数据,否则无法扩展成为大型的系统。对于上述存在的问题,在文献Lightweight Black-box Failure Detection for Distributed Systems.CMU-PDL-12-106,Jul2012,作者为:J.Tan,S.Kavulya,R.Gandhi,and P.Narasimhan中,公开了一种轻量级故障检测系统,做了很好的改进,采用轻量级非侵入的方式获得系统进程级监控数据,算法实现方式简单故而效率很高,当节点增加时,系统复杂度成线性增加,但是在运行过程中计算的相关系数均为两两系统运行指标量之间而存在局限性,但是在该文献中的检测系统运行时,计算所有负载指标相关系数(例如CPU和网卡读写速率、磁盘读写速率等两两之间的皮尔逊相关系数)然后根据最大的相关系数进行判断,不能够完整反映系统应用运行情况。不能完全反应系统中应用完整的运行情况。
发明内容
本发明所要解决的技术问题在于克服现有故障感知系统具有的高复杂度、低效率和平台的高依赖度问题,提出了一种基于集群的故障感知系统及其方法。
本发明提出了一种基于集群的故障感知系统,其特征在于,包括:多个前端检测模块、一后端服务器模块和一检测通信模板模块;
所述多个前端检测模块,运行于集群中不同的服务器,用于收集和处理与操作系统或应用程序相关的前端故障检测数据,并根据所述前端故障检测数据对故障情况进行初次判断,得到前端故障检测信息,并向所述后端服务器模块上传所述前端故障检测信息或所述前端故障检测数据;
所述后端服务器模块,用于根据接收到的所述前端故障检测数据对故障情况进行再次判断得到后端故障检测信息,最终对外汇总输出所述前端故障检测信息和所述后端故障检测信息。
所述检测通信模板模块,用于所述多个前端检测模块和所述后端服务器模块间进行通信的接口标准。
上述基于集群的故障感知系统,其特征在于,所述前端故障检测数据,包括:所述前端检测模块收集的进程负载数据、所述前端检测模块计算获取的负载间和进程间的相关系数、负载的特征向量和相关系数的特征向量。
上述基于集群的故障感知系统,其特征在于,所述检测通信模板模块还包括:包含配置参数、负载阈值、相关系数阈值、数据域更新、常见故障特征数据和单/多维相关计算方式的检测模板。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算技术研究所,未经中国科学院计算技术研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310711737.X/2.html,转载请声明来源钻瓜专利网。