[发明专利]一种分布式系统网络性能分析及故障诊断方法有效
申请号: | 201410508685.0 | 申请日: | 2014-09-28 |
公开(公告)号: | CN104270268B | 公开(公告)日: | 2017-12-05 |
发明(设计)人: | 张攀勇;彭成;季旻;苗艳超 | 申请(专利权)人: | 曙光信息产业股份有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京安博达知识产权代理有限公司11271 | 代理人: | 徐国文 |
地址: | 300384 天津市西青区华*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 系统 网络 性能 分析 故障诊断 方法 | ||
技术领域
本发明涉及一种诊断方法,具体涉及一种分布式系统网络性能分析及故障诊断方法。
背景技术
分布式系统指的是建立在网络系统之上,将各个不同的节点通过节点之间的消息通信,协作完成一种或多种服务。由于分布式系统将服务分布到不同的节点,因此分布式系统具有良好的可扩展性,故障隔离,以及应用透明性。在实际的IT系统中得到了广泛的应用,典型的服务有分布式文件系统,分布式数据库,网站服务等。
由于分布式系统依赖网络设备将各个服务节点互联在一起,网络设备的性能和稳定性对分布式系统的性能和稳定性起到了决定性的作用。随着分布式系统规模的扩大,使得网络的规模,设备类型,设备的连接方式变得极为复杂,如果某些设备出现故障,会直接影响到上层服务的质量。如何通过工具对网络系统进行高效的故障诊断和性能分析,具有非常重要的意义。
目前的故障诊断机制来说,分为硬件故障诊断机制和软件测试工具。
硬件故障诊断机制包括网络设备上提供的性能计数器,提供各种性能和故障计数器,包括收发消息,丢弃消息,硬件错误消息等计数,通过这些计数能够检测到硬件设备是否存在异常。
软件测试工具通过主动地进行点到点的消息收发,计算出点到点的网络延迟和带宽,进而判断网络是否存在故障。典型的测试工具有Iperf,netperf等。
现有的分布式系统网络性能分析和故障诊断存在如下几个方面的问题:
●故障判断源简单:硬件计数器只能侦测硬件本身的故障源,无法对于网络链路的状态,软件协议层错误等故障进行判断;软件点到点测试工具只能测试两个点之间的网络性能,无法通过数据快速判断网络故障。
●管理员手工参与:需要管理员手工测试各种可能情况,并根据结果分析可能存在何种故障进行处理。随着分布式系统规模扩大导致的网络规模庞大,需要故障诊断工具简化并快速的提供整体网络的可能故障点,便于管理员进行故障的判断和排除。
发明内容
为了克服上述现有技术的不足,本发明提供一种分布式系统网络性能分析及故障诊断方法,考虑到了参与通信路径上的所有网络设备和链路的状态,节点之间的通信性能,根据网络拓扑信息,能够分析并确定故障点的具体位置,提高了故障检测的精度,降低了故障检测的开销。
同时对于分布式系统的性能分析,本方法能够提供分布式系统节点间的实际性能,而不是网络系统的理论性能,能够提高性能预估的精度。
为了实现上述发明目的,本发明采取如下技术方案:
本发明提供一种分布式系统网络性能分析及故障诊断方法,所述方法包括以下步骤:
步骤1:在被监控的分布式系统上部署监控服务;
步骤2:根据分布式系统的特征,运行管理服务;
步骤3:进行网络拓扑发现;
步骤4:确定被监控节点的监控节点集合;
步骤5:管理服务收集节点状态信息并进行分析;
步骤6:网络性能探测;
步骤7:网络状态分析,确定可能存在的故障。
所述步骤1中,根据被监控的分布式系统规模,确定被监控节点,并在被监控节点上部署监控服务;所述被监控节点定义为分布式系统中需要被监控的服务所在节点,包括服务器和网络设备等。
监控服务负责监控所在节点的网络状态,包括网卡的硬件状态和操作系统提供的性能计数信息等;
监控服务接收管理服务的命令并执行,命令包括网络探测命令和网络性能测试命令;
监控服务根据管理服务发出的网络探测命令,进行网络探测;并根据管理服务发出的网络性能测试命令,进行节点之间的网络性能测试。
所述步骤2中,在管理节点上运行管理服务,管理服务根据分布式系统特征,选择被监控节点,启动监控服务,并与被监控节点上的监控服务相连接。
管理服务与监控服务的连接方式根据分布式系统的规模而定:
对于小规模分布式系统,管理服务直接与所有的监控服务连接;
对于大规模分布式系统,管理服务采用树形层级方式连接,即上层管理服务管理不同分区的管理服务,单个分区管理服务只管理设定数量的节点和网络。
所述步骤3中,管理服务对分布式系统的所有网络设备发起网络拓扑发现,以确定网络拓扑信息,并将网络该拓扑信息存储到管理服务中;如果分布式系统所处的网络设备不支持拓扑发现,则根据管理员提供的拓扑配置构建网络拓扑信息。
所述步骤4中,被监控节点支持以下三种监控方式:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于曙光信息产业股份有限公司,未经曙光信息产业股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410508685.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:多点和有根多点保护切换
- 下一篇:一种防止负载均衡链路连续震荡的方法及装置