[发明专利]一种故障检测、恢复方法及装置有效
申请号: | 201410748994.5 | 申请日: | 2014-12-09 |
公开(公告)号: | CN104486109B | 公开(公告)日: | 2018-02-23 |
发明(设计)人: | 陈怡;赵晗 | 申请(专利权)人: | 大唐移动通信设备有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京同达信恒知识产权代理有限公司11291 | 代理人: | 任嘉文 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 故障 检测 恢复 方法 装置 | ||
技术领域
本发明涉及通信技术领域,尤其涉及一种故障检测、恢复方法及装置。
背景技术
故障管理作为现代通信网络管理系统中的一个重要组成部分,能够保证网络的正常运行。由于通信网络的迅速发展,网络结构越来越复杂,网络出现故障的可能性也越来越大。
在大型的网管系统中一般均使用数据库作为系统底层应用的数据库系统,为系统提供数据的存储、计算等数据的基础服务,同时数据库本身从业务角度分析,是作为系统的被管理元素存在。所以管理站要实时关注数据库的运行情况,尤其是出现“表空间不足”、“挂死进程”、“锁定对象”、“任务执行失败”、“低效结构化查询语言(Structured Query Language,SQL)”这五类问题时,管理站需要及时发现并处理以保证系统的正常高效运行。
在现有技术中,网管系统中的管理站与被管元素之间均采用简单网络管理协议(Simple Network Management Protocol,SNMP)进行通信,被管元素通过SNMP陷阱(SNMP Trap)消息来主动上报告警信息给管理站。现有技术中,如图1所示,在管理站一侧的边界上会部署一个协议代理子系统或者子模块用以完成“管理站内部协议”到“SNMP协议”的双向配置工作。从图1中可以看出管理站与被管理元素之间是使用SNMP消息完成业务交互的,并由“SNMP协议代理”来完成边界内外的协议转换以及适配。但是在网管系统中内部数据库是作为内部元素存在,“SNMP协议代理”并不负责直接与数据库进行协议交互。这样需要使用数据库系统自带的SNMP服务网管通过Trap消息上报告警。
然而,实际网管系统中每类网管产品均针对特定的网络元素以及管理特性进行针对性的管理和实现,例如,如果系统中应用Oracle数据库作为系统底层应用的数据库系统,则需要针对Oracle数据库实现一套标准的管理机制,对网管系统自身而言需要增加很多额外的功能,而影响网管对于本职业务的实现和关注。具体表现在:1、对于Oracle数据库而言还需要打开数据库的SNMP服务,以及获取SNMP消息的格式来才能使用网管所需的业务;2、Oracle数据库只能上报告警信息,而对于故障的恢复或者是如何恢复还必须根据系统的物理硬件配置环境人工进行干预处理;3、Oracle数据库上报告警信息时,相应告警的级别以及告警所包含内容必须是使用Oracle数据库预设置的值,无法在上报时就根据实际的影响性来定义级别以及设置内容的取舍。
总之,在网管系统中,现有技术不能针对数据库的应用类故障进行自动检测、上报告警及故障恢复,增加了网管系统的复杂度。
发明内容
本发明实施例提供了一种故障检测、恢复方法及装置,用以在网管系统中,针对数据库的应用类故障进行自动检测、上报告警及故障恢复,降低了网管系统的复杂度。
本发明实施例提供的一种故障检测方法,针对预设的每一类型的故障检测,该方法包括:
在该类型的故障检测周期内,确定该类型预定义的所有检测对象的相关信息;
针对该类型的每一检测对象:根据该检测对象的相关信息,以及预设的该类型的故障条件,判断该检测对象是否发生该类型的故障;对于发生该类型的故障的检测对象,确定该检测对象的故障告警信息,并上报给管理站。
本发明实施例中,预设的每一类型的故障,包括:表空间不足故障、挂死进程故障、锁定对象故障、任务执行失败故障以及低效SQL故障。通过该故障检测方法,使得在网管系统中,不用依赖SNMP方式和数据库的自身网管特性,利用网管系统内部的业务接口以及数据库脚本和任务方式来实现针对这五类故障,甚至类似故障进行自动检测以及上报管理站。其中,故障告警信息中携带该故障的相关信息,为工作人员提供方便,降低了网管系统的复杂度。
较佳地,该方法还包括:
对于没有发生该类型的故障的检测对象,则查询该检测对象上一次是否有告警记录,若有,则生成该检测对象的清除告警信息,并上报给管理站。
较佳地,
当故障检测的类型为预设的表空间不足的故障检测,预定义的所有检测对象为所有表空间时,该类型的所有检测对象的相关信息包括:每一表空间名称,该表空间中的数据文件个数、每一数据文件大小和该表空间的剩余物理磁盘空间大小;
当故障检测的类型为预设的挂死进程的故障检测,预定义的所有检测对象为所有进程时,该类型的所有检测对象的相关信息包括:每一进程的进程号和该进程执行时长;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大唐移动通信设备有限公司,未经大唐移动通信设备有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410748994.5/2.html,转载请声明来源钻瓜专利网。