[发明专利]一种实现Insight管理平台故障自恢复的方法及装置在审
申请号: | 202010453981.0 | 申请日: | 2020-05-26 |
公开(公告)号: | CN111737045A | 公开(公告)日: | 2020-10-02 |
发明(设计)人: | 道玉明 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/14 | 分类号: | G06F11/14 |
代理公司: | 济南诚智商标专利事务所有限公司 37105 | 代理人: | 李修杰 |
地址: | 215100 江苏省苏州市吴*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实现 insight 管理 平台 故障 恢复 方法 装置 | ||
本发明提供了一种实现Insight管理平台故障自恢复的方法,所述的方法包括:S1:检测到原主节点故障后,触发主节点选举机制;S2:将采用选举机制选出的最优节点升级为新的主节点;S3:从AEP内存中获取原主节点的数据配置并导入新的主节点;S4:验证新的主节点能否正常工作,若能,则完成恢复,若不能,则发送报警信息。相比于现有技术的手动切换,本申请利用选举机制,保证管理平台在主节点出现异常或出现宕机情况时,能够做到自动切换到从节点管理平台,并将从管理节点升为主管理节点,做到无感知切换。此外,本申请还提供了用于实现本申请方法的装置。
技术领域
本发明涉及计算机技术领域,特别是涉及一种实现Insight管理平台故障自恢复的方法及装置。
背景技术
Inshight管理平台是一种基于Web的管理工具,在大数据Insight平台中,它支持HDFS、MapReduce、Hive、HBase、Zookeeper等组件的集中管理,支持Insight集群的供应与监控,是Insight核心管理工具之一。它通过一步一步的安装向导简化了集群供应,通过预先配置好关键的运维指标,可以直接查看HDFS、MapReduce、HBase、Hive等是否健康。通过界面实现支持作业与任务执行的可视化与分析,通过一个完整的RESTful API把监控信息暴露出来,并集成了现有的运维工具。通过管理平台,用户可以非常方便直观地操作与控制集群。
但由于管理平台仅存在于主节点,如果主节点在集群使用当中出现问题无法连接,会导致管理平台直接宕机,最终导致客户无法管理大数据集群,且无法访问管理平台界面,无法获取大数据集群的状态。
目前解决办法为:手动部署一个新的管理平台页面服务,手动切换到新的页面,待修复原管理页面后,再进行节点切回。此修复方式不仅费时,且消耗大量人力物力,影响到客户使用管理平台。
发明内容
本发明实施例中提供了一种实现Insight管理平台故障自恢复的方法及装置,保证管理平台在主节点出现异常或出现宕机情况时,能够做到自动切换到从节点管理平台,并将从管理节点升为主管理节点,做到无感知切换。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
本发明实施例提供了一种实现Insight管理平台故障自恢复的方法,所述的方法包括:
S1:检测到原主节点故障后,触发主节点选举机制;
S2:将采用选举机制选出的最优节点升级为新的主节点;
S3:从AEP内存中获取原主节点的数据配置并导入新的主节点;
S4:验证新的主节点能否正常工作,若能,则完成恢复,若不能,则发送报警信息。
进一步的,所述的方法还包括:
S5:运维人员调用切换模块,将集群中一个节点升级为主节点。
进一步的,步骤S4中,若新的主节点不能正常工作,在向运维人员发送报警信息的同时,记录新的主节点为故障节点,并返回步骤S1重新选举。
进一步的,步骤S1中,触发的主节点选举机制为:
通过获取集群各剩余节点的I/O能力、Job任务执行在线数量、CPU参数、存储参数、内存参数、网络参数、电源参数,按照设定的权重比例计算各个节点的得分,得分最高的节点为最优节点。
进一步的,设定的权重比例为:
I/O能力、Job任务执行在线数量、CPU参数、存储参数、内存参数、网络参数、电源参数之间的权重比例为2:1:2:1:2:1:1。
进一步的,步骤S2的具体实现方法为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010453981.0/2.html,转载请声明来源钻瓜专利网。