[发明专利]集群故障修复方法及其模型训练方法、装置及服务器在审
申请号: | 202010120742.3 | 申请日: | 2020-02-26 |
公开(公告)号: | CN113313134A | 公开(公告)日: | 2021-08-27 |
发明(设计)人: | 李睿;羌毅;王冕;何诚 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06F11/30;G06F16/18 |
代理公司: | 北京博雅睿泉专利代理事务所(特殊普通合伙) 11442 | 代理人: | 郭少晶 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 集群 故障 修复 方法 及其 模型 训练 装置 服务器 | ||
本说明书实施例涉及一种集群故障修复方法、装置及服务器。该方法包括:获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故障修复策略;根据所述历史故障数据形成故障文本;将该故障文本表示为结构化的文本表示向量;将该文本表示向量输入多层分类器,输出所述文本表示向量与所述历史故障修复策略之间的关联关系,得到所述集群故障修复模型。从而得到效率及准确率更高的集群故障修复模型,进而实现了高效率、高准确率的集群故障的自动修复。
技术领域
本说明书实施例涉及集群故障自动处理技术领域,更具体地,涉及一 种集群故障修复模型的训练方法、一种集群故障修复方法、一种集群故障 修复模型的训练装置、一种集群故障修复装置、一种服务器以及一种计算 机可读存储介质。
背景技术
在大规模集群服务器的运维中,机器的智能化修复十分重要。由于集 群中的服务器数量庞大,相应的,同时间发生故障的服务器也比较多。现 有的运维系统中,部署了软硬件自动化修复系统(auto-healing),其修复 策略是基于规则匹配得到的。响应速度较快,且具有很高的可解释性。
该方案虽然实现了自动化的集群中服务器故障的修复,但是修复策略 是由专家配置,且是由单规则触发的。比如,在多个报警的监控模块 (monitor)中只关注其中的一个monitor,或者只关注服务器的某种状态, 如state=os_error等,这会导致故障修复的准确率低,且会存在规则覆盖不 全的问题。
因此,有必要提供一种高效率、高准确率的集群故障修复方法。
发明内容
本说明书实施例的一个目的是提供一种集群故障修复的新的技术方 案。
根据本说明书实施例的第一方面,提供了一种集群故障修复模型的训 练方法,包括:
获取故障日志数据;所述故障日志数据中包括历史故障数据和历史故 障修复策略;
根据所述历史故障数据形成故障文本;
将所述故障文本表示为结构化的文本表示向量;
将所述文本表示向量输入多层分类器,输出所述文本表示向量与所述 历史故障修复策略之间的关联关系,得到所述集群故障修复模型。
可选地,其中,所述根据所述历史故障数据形成故障文本,包括:
从所述历史故障数据中提取故障监控模块名称以及对应的故障级别;
使所述故障监控模块名称及对应的故障级别形成所述故障文本。
可选地,其中,所述将所述故障文本表示为结构化的文本表示向量, 包括:
根据预设故障级别权重值,将所述故障文本转化为相应的词频向量;
将所述词频向量输入语言模型,得到所述结构化的文本表示向量。
可选地,其中,所述语言模型为概率统计模型或深度学习语言模型; 其中,所述概率统计模型包括词频-逆向文件频率tf-idf模型、文档主题生 成模型LDA;所述深度学习语言模型为word2vec模型。
可选地,其中,所述历史故障修复策略包括成功修复策略和未成功修 复策略;
所述将所述文本表示向量输入多层分类器,输出所述文本表示向量与 所述历史故障修复策略之间的关联关系,包括:
将所述文本表示向量输入多分类器,输出所述文本表示向量与所述成 功修复策略之间的关联关系;
以及,将所述文本表示向量输入二分类器,输出所述文本表示向量与 所述成功修复策略以及所述未成功修复策略之间的关联关系。
根据本说明书实施例的第二方面,提供了一种集群故障修复方法,包 括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010120742.3/2.html,转载请声明来源钻瓜专利网。