[发明专利]人工智能开发平台的监控预知告警方法、装置及存储介质在审
申请号: | 202010890143.X | 申请日: | 2020-08-28 |
公开(公告)号: | CN112069039A | 公开(公告)日: | 2020-12-11 |
发明(设计)人: | 张书博 | 申请(专利权)人: | 苏州浪潮智能科技有限公司 |
主分类号: | G06F11/32 | 分类号: | G06F11/32;G06N3/04;G06N3/08 |
代理公司: | 北京众达德权知识产权代理有限公司 11570 | 代理人: | 张晓冬 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人工智能 开发 平台 监控 预知 告警 方法 装置 存储 介质 | ||
本发明公开了一种人工智能开发平台的监控预知告警方法、装置及存储介质,本发明将人工智能开发平台收集到的实时监控数据,按照设置的告警检测周期进行分组,形成原始训练集,使用LSTM神经网络模型进行训练,将得到的预测监控数据的LSTM模型进行保存,在预测场景下,实时使用卡尔曼滤波算法,对LSTM模型预测出的监控数据进行修正,计算出下个告警检测周期的较优监控预测数据,与告警管理模块的阈值进行对比,实现人工智能开发平台的监控预知告警功能。
技术领域
本发明涉及人工智能技术领域,具体为一种人工智能开发平台的监控预知告警方法、装置及存储介质。
背景技术
对于人工智能开发平台来说,监控信息与告警机制是较为重要的。人工智能开发平台可以给用户提供训练深度学习模型的基础环境,算力,以及管理方法等服务,对于训练深度学习模型来说,资源的实时监控和合理分配就变得尤为重要,比如CPU,GPU,磁盘等。CPU,GPU,内存等的使用率,GPU的功耗,温度,是否存在掉卡现象等,这些指标如果异常,都将影响训练任务的进度,质量,甚至能否训练成功,类似的情况比如由于CPU的使用率过高,CPU的数据读取跟不上,导致GPU没有得到充分利用,形成资源浪费;再比如GPU温度过高产生的潜在威胁,或者由于某些物理原因导致GPU掉卡等,都有可能导致训练直接停止或失败,甚至造成硬件损坏等情况。但是对于告警机制而言,监控信息取到的都是实时数据,也就是说触发告警的条件是监控捕获到了已经发生了的异常事件,这样会比较被动的去处理异常事件带来的后果,而不是通过告警策略来预防异常。
LSTM(Long Short-Term Memory)长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM通过链式结构,可以使之前传入的信息保持不变流出,又通过“门”的结构,包括遗忘门、输入门、输出门,让信息选择性通过,从而添加或移除信息,解决梯度消失和梯度爆炸。
发明内容
本发明的目的在于提供一种人工智能开发平台的监控预知告警方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种人工智能开发平台的监控预知告警方法,包括以下步骤:
利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值;
以告警检测周期为轴,将所述监控预测值和到达下一周期时得到的真实监控数据代入卡尔曼滤波中,得到该周期的最优监控预测值。
将所述最优监控预测值输入所述预测模型中,对再下一周期进行预测,得到最终监控预测值。
优选的,还包括:
将最终监控预测数据与告警阈值进行比较,若达到触发告警的条件,则生成告警信息。
优选的,在利用基于LSTM神经网络的预测模型,依据当前告警检测周期的监控数据,对下一周期的监控数据进行预测,得到监控预测值的步骤之前,还包括:
基于多个监控项的监控数据生成训练数据集;
基于所述训练数据集,按照每个监控项,按照单位告警检测周期,对初始LSTM神经网络进行训练,生成预测模型。
优选的,基于监控项的监控数据生成训练数据集的步骤,包括:
将监控数据作为训练文本,对训练文本进行预处理;
对预处理后的训练文本进行识别,生成训练文本的关键词;
对训练文本中的词语进行编码,得到高维空间连续词向量,对关键词进行同样的编码得到关键词向量;
将关键词向量添加至对应的词向量对词向量进行加权得到训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州浪潮智能科技有限公司,未经苏州浪潮智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010890143.X/2.html,转载请声明来源钻瓜专利网。