[发明专利]一种分布式系统网络性能分析及故障诊断方法有效
申请号: | 201410508685.0 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104270268B | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 张攀勇;彭成;季旻;苗艳超 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供一种分布式系统网络性能分析及故障诊断方法,包括以下步骤在被监控的分布式系统上部署监控服务;根据分布式系统的特征,运行管理服务;进行网络拓扑发现;确定被监控节点的监控节点集合;管理服务收集节点状态信息并进行分析;网络性能探测;网络状态分析,确定可能存在的故障。本发明考虑到了参与通信路径上的所有网络设备和链路的状态,节点之间的通信性能,根据网络拓扑信息,能够分析并确定故障点的具体位置,提高了故障检测的精度,降低了故障检测的开销。同时对于分布式系统的性能分析,本方法能够提供分布式系统节点间的实际性能,而不是网络系统的理论性能,能够提高性能预估的精度。 | ||
搜索关键词: | 一种 分布式 系统 网络 性能 分析 故障诊断 方法 | ||
【主权项】:
一种分布式系统网络性能分析及故障诊断方法,其特征在于:所述方法包括以下步骤:步骤1:在被监控的分布式系统上部署监控服务;步骤2:根据分布式系统的特征,运行管理服务;步骤3:进行网络拓扑发现;步骤4:确定被监控节点的监控节点集合;步骤5:管理服务收集节点状态信息并进行分析;步骤6:网络性能探测;步骤7:网络状态分析,确定可能存在的故障;所述步骤1中,根据被监控的分布式系统规模,确定被监控节点,并在被监控节点上部署监控服务;所述被监控节点定义为分布式系统中需要被监控的服务所在节点,包括服务器和网络设备;监控服务负责监控所在节点的网络状态,包括网卡的硬件状态和操作系统提供的性能计数信息;监控服务接收管理服务的命令并执行,命令包括网络探测命令和网络性能测试命令;监控服务根据管理服务发出的网络探测命令,进行网络探测;并根据管理服务发出的网络性能测试命令,进行节点之间的网络性能测试;所述步骤2中,在管理节点上运行管理服务,管理服务根据分布式系统特征,选择被监控节点,启动监控服务,并与被监控节点上的监控服务相连接;管理服务与监控服务的连接方式根据分布式系统的规模而定:对于小规模分布式系统,管理服务直接与所有的监控服务连接;对于大规模分布式系统,管理服务采用树形层级方式连接,即上层管理服务管理不同分区的管理服务,单个分区管理服务只管理设定数量的节点和网络;所述步骤3中,管理服务对分布式系统的所有网络设备发起网络拓扑发现,以确定网络拓扑信息,并将网络该拓扑信息存储到管理服务中;如果分布式系统所处的网络设备不支持拓扑发现,则根据管理员提供的拓扑配置构建网络拓扑信息;所述步骤4中,被监控节点支持以下三种监控方式:(1)全系统扫描方式:对分布式系统的所有节点和网络设备进行扫描,则监控节点集合为系统内部所有节点和网络设备;(2)管理员指定方式:管理员通过配置指定监控节点集合;(3)应用程序指定,故障时监控集合扫描方式:应用程序通过API指定监控节点集合,系统在发现可疑故障之后针对特定节点扫描;该监控方式的具体过程如下:3‑1):应用程序指定需要监控的节点;3‑2):监控服务定期监控节点的状态,如果发现网络状态异常,则将本节点的异常通信状态主动通知给管理服务;3‑3):管理服务在接收到节点异常通信状态通知后,根据网络拓扑计算出通信路径,将通信路径上的所有网络设备和节点,加入监控节点列表;所述步骤5包括以下步骤:步骤5‑1:管理服务向监控节点集合中的监控服务发起节点状态信息收集命令;步骤5‑2:监控服务接收到节点状态信息收集命令后,收集本节点网络设备的状态,并将结果返回给管理服务;步骤5‑3:管理服务收集到所有节点的状态信息进行分析,确认存在故障的网络设备,并将存在故障的网络设备在管理服务的网络拓扑信息中标出;步骤5‑4:管理服务将存在故障的网络设备的列表上报给管理员,通知管理员进行维护;所述步骤6包括以下步骤:步骤6‑1:管理服务向监控节点集合中的监控节点成对发起主动网络性能探测,性能指标包括双向网络延迟、网络带宽和网络性能稳定性,并收集节点路径上的所有网络设备的计数器;步骤6‑2:节点上的监控服务在收到网络性能探测请求后,主动向对应节点发起探测消息操作,并将结果返回给管理服务;步骤6‑3:管理服务选择成对监控节点的算法,包括排列组合算法和贪心算法;所述步骤7中,管理服务在接收到步骤5和步骤6的结果之后,根据步骤3获得的网络拓扑信息进行网络状态分析,综合所有网络设备的计数器以及节点之间的通信测试性能,确定存在故障的网络设备或者链路,可能存在的故障包括网卡设备硬件故障、网卡工作模式错误、网卡接口与节点接口不匹配、连接线缆断开、连接线缆不稳定和交换机故障。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410508685.0/,转载请声明来源钻瓜专利网。
- 上一篇:多点和有根多点保护切换
- 下一篇:一种防止负载均衡链路连续震荡的方法及装置