[发明专利]一种云端集群故障处理方法及装置在审
申请号: | 201711204632.X | 申请日: | 2017-11-27 |
公开(公告)号: | CN109842505A | 公开(公告)日: | 2019-06-04 |
发明(设计)人: | 牛建华;吴亮;赵安安;孙净亮;彭朝阳;曾重阳 | 申请(专利权)人: | 北京通号国铁城市轨道技术有限公司 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹;李相雨 |
地址: | 100070 北京市丰*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标主机 云端 集群 备用主机 服务切换 故障处理 心跳信息 接管 预设时间段 运行效率 离线 重启 修复 服务 恢复 | ||
本发明实施例公开了一种云端集群故障处理方法及装置,方法包括:云端集群的备用主机若在预设时间段内未接收到目标主机的心跳信息,则确认所述目标主机故障;接管所述目标主机的服务继续运行,以使所述目标主机进行离线重启或修复;若接收到所述目标主机的心跳信息,则确认所述目标主机恢复正常,并将运行的各服务切换回所述目标主机运行。本发明实施例通过设定云端集群的备用主机,通过备用主机接管出现故障的云端集群的目标主机的服务继续运行,并在目标主机恢复后,将服务切换回目标主机运行,备用主机的功能较之ATS系统更为简单,切换更为方便,以提高整个系统的运行效率。
技术领域
本发明实施例涉及轨道交通技术领域,具体涉及一种云端集群故障处理方法及装置。
背景技术
高可用性技术是轨道交通领域内越来越受关注的技术。轨道交通系统的可用性用平均无故障时间来度量,即计算机系统平均能够正常运行多长时间,才发生一次故障。
当前轨道交通系统设备集中站负责列车的控制和调度,集中站内包含ATS(自动列车防护)分机、ZC、联锁等系统。为了提升系统可用性,ATS、ZC、联锁都采用双机热备。采用双机热备方案的优点是,一台服务器出现了故障,系统会立刻切换到备用服务器运行,不会因为服务故障或者系统宕机,导致系统中断运行。
但是,ATS负责系统调度计划、与售检票系统对接、运行压力预测和列车分配、机器视觉、机器学习等复杂功能。某个线路内,某几个站点出现庞大的客流量,ATS系统会分配其它流量少的站点列车到客流量大的站点。ATS深度学习功能,通过与售检票系统的对接,去学习和预测第二天或以后几天的客流量,提前分配空闲列车去流量大的站点。
现有方法中由于集中站内部ATS系统功能复杂,导致系统运行效率低下。
发明内容
由于现有方法存在上述问题,本发明实施例提出一种云端集群故障处理方法及装置。
第一方面,本发明实施例提出一种云端集群故障处理方法,包括:
云端集群的备用主机若在预设时间段内未接收到目标主机的心跳信息,则确认所述目标主机故障;
接管所述目标主机的服务继续运行,以使所述目标主机进行离线重启或修复;
若接收到所述目标主机的心跳信息,则确认所述目标主机恢复正常,并将运行的各服务切换回所述目标主机运行。
可选地,所述云端集群的备用主机在预设时间段内未接收到目标主机的心跳信息,则确认所述目标主机故障之前,还包括:
云端集群的备用主机通过主心跳线接收到目标主机的心跳信息,若所述主心跳线故障,则通过备心跳线接收到目标主机的心跳信息。
可选地,所述心跳消息包括主机硬件心跳信息、主机网络心跳信息、主机操作系统心跳信息、应用程序心跳信息以及主机与磁盘阵列连线心跳信息。
可选地,所述方法还包括:
设定心跳配置文件中心跳信息的侦测时间间隔和侦测次数,并根据所述心跳配置文件接收到目标主机的心跳信息。
第二方面,本发明实施例还提出一种云端集群故障处理装置,包括:
故障确认模块,用于若在预设时间段内未接收到目标主机的心跳信息,则确认所述目标主机故障;
服务接管模块,用于接管所述目标主机的服务继续运行,以使所述目标主机进行离线重启或修复;
服务恢复模块,用于若接收到所述目标主机的心跳信息,则确认所述目标主机恢复正常,并将运行的各服务切换回所述目标主机运行。
可选地,所述装置还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京通号国铁城市轨道技术有限公司,未经北京通号国铁城市轨道技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711204632.X/2.html,转载请声明来源钻瓜专利网。