[发明专利]基于日志时空特征分析的分布式系统异常检测方法在审
申请号: | 202310101882.X | 申请日: | 2023-02-08 |
公开(公告)号: | CN116167370A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 薛岗;韩鹏飞;刘璟 | 申请(专利权)人: | 云南大学 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F18/214;G06F18/2415;G06N3/08;G06N3/0442 |
代理公司: | 成都行之智信知识产权代理有限公司 51256 | 代理人: | 温利平 |
地址: | 650031*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 日志 时空 特征 分析 分布式 系统 异常 检测 方法 | ||
1.一种基于日志时空特征分析的分布式系统异常检测方法,其特征在于包括:
S1:收集分布式系统的原始日志,包括日志的时间戳、级别、代码位置和日志记录的分布式系统运行过程的详细信息文本,将收集到的原始日志进行存储;
S2:从分布式系统历史运行过程中提取出若干原始日志序列作为训练样本,每个原始日志序列中包含K个连续的原始日志,K的取值根据实际需要进行设置,对每个原始日志序列进行标签标注,如果该原始日志序列中包含异常情况,则标签为1,否则标签为0;
S3:对原始日志序列中的每个原始日志分别进行解析,将每个原始日志中的“时间戳”、“级别”、“代码位置”信息去除并将详细信息中的IP地址参数用通配符*进行匹配,得到该原始日志对应的日志模板,进而得到原始日志序列对应的日志模板序列;
S4:对于每个日志模板序列,将其中每个日志模板中的标点符号和通配符用空格代替,然后获取日志模板中单词数量作为日志模板长度,当日志模板长度小于预设的统一日志模板长度N,则使用预设的默认字符串对该日志模板填充至长度N,当日志模板长度大于预设的统一日志模板长度N,则去除最后的单词将日志模板长度缩短为N,否则不作任何操作;
S5:采用语义特征嵌入和统计特征嵌入结合的方式对日志模板子序列进行语义向量化,具体方法为:
记日志模板序列中第k个日志模板为(ak,1,ak,2,…,ak,N),ak,i表示第k个日志模板中第i个单词,k=1,2,…,K,i=1,2,…,N;对日志模板中的单词使用word2vec算法进行词嵌入,记ek,i为单词ak,i进行词嵌入得到的M维向量;然后基于TF-IDF方法获取每个单词的权值tk,i:统计单词ak,i在日志模板中的词频和tfk,i和逆文档频率idfk,i,计算权值tk,i=tfk,i×idfk,i;根据词嵌入向量ek,i和权值tk,i,得到第k个日志模板中第i个单词的语义向量vk,i=ek,i×tk,i,从而得到第k个日志模板的大小为N×M的语义向量矩阵为Vk:
然后将日志模板序列中所有日志模板的语义向量构成大小为N×M×K的日志模板语义向量序列F:
S6:构建异常检测模块,包括K个特征提取模块、K个遮蔽(mask)模块、1个转换器(Transformer)网络、1个全连接层和1个softmax层,其中:
N个特征提取模块分别提取日志模板语义向量序列中第n个单词对应的语义向量序列(v1,i,v2,i,…,vK,i)的时间特征Ti,时间特征Ti的维度设置为H×W×L,然后将时间特征Ti发送至转换器网络;
N个遮蔽模块分别提取日志模板语义向量序列中日志模板语义向量序列中第n个单词对应的语义向量序列(v1,i,v2,i,…,vK,i)的位置特征si,位置特征si的维度设置为H,然后将位置特征sk用0填充得到维度为H×W×L的三维位置特征Si,然后将位置特征Si发送至转换器网络;
转换器网络根据接收的N个时间特征Ti和位置特征Si,提取得到日志模板语义向量序列的时空特征X并发送至全连接层;
全连接层用于对接收到的时空特征X进行整合,转化为一维特征并输出至softmax层;
softmax层用于根据接收到的特征进行预测,得到原始日志序列是否存在异常的结果;
S7:将作为训练样本的原始日志序列对应的日志模板语义向量序列作为输入,原始日志序列对应的标签作为期望输出,对步骤S6构建的异常检测模型进行训练,得到训练好的异常检测模型;
S8:当需要对分布式系统进行异常检测时,首先从待检测时间段提取连续的K个原始日志构成待检测原始日志序列,然后采用步骤S3中的方法进行日志解析,采用步骤S4中的方法进行日志模板预处理,采用步骤S5中的方法进行日志模板语义向量化,得到待检测原始日志序列对应的日志模板语义向量序列,将其输入至训练好的异常检测模型,得到待检测原始日志序列的异常检测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南大学,未经云南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310101882.X/1.html,转载请声明来源钻瓜专利网。