[发明专利]基于日志全语义的多特征日志异常检测方法及系统有效
申请号: | 202210230854.3 | 申请日: | 2022-03-10 |
公开(公告)号: | CN114610515B | 公开(公告)日: | 2022-09-13 |
发明(设计)人: | 牛伟纳;张小松;李梓慕;薛志行;赵丽睿;邵淇奥 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06N3/04;G06N3/08 |
代理公司: | 成都正煜知识产权代理事务所(普通合伙) 51312 | 代理人: | 徐金琼 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 日志 语义 特征 异常 检测 方法 系统 | ||
1.一种基于日志全语义的多特征日志异常检测方法,其特征在于,包括如下步骤:
步骤1:对日志数据集进行初步处理,得到日志数据集中各日志序列全部语义的日志项单词组,并将其作为日志序列的语义特征,其中,日志数据集包括多个日志序列,日志序列是一段时间间隔或是不同进程产生的日志,各日志序列包括多个日志项;
步骤2:分别提取各日志序列的类型特征、时间特征和数量特征,并同语义特征编码成各日志序列的日志特征向量集,其中,日志特征向量集包括类型特征向量、时间特征向量、数量特征向量和语义特征向量;
步骤3:基于所有日志特征向量集训练基于注意力机制的BiGRU神经网络模型,得到训练好的BiGRU神经网络模型;
步骤4:将待检测的日志数据集输入训练好的BiGRU神经网络模型进行预测,并根据预测结果区分出各日志序列是正常或异常的日志序列;
所述步骤1的具体步骤为:
步骤1.1:使用自然语言的分词对各日志序列中的各日志项进行标记,每一日志项得到一组标记后的单词集,其中,单词被标记为名词或动词;
步骤1.2:使用分隔符分割标记后得到的单词集,其中,分隔符包括空格、冒号和逗号;
步骤1.3:将分割后得到的单词集中的大写字母转换为小写字母,并从单词集中删除所有非字符标记,得到各日志序列全部语义的日志项单词组,即得到各日志序列的语义特征,其中,非字符包括操作符、标点符号和数字;
所述步骤2的具体步骤为:
步骤2.1:若各日志项中包含所属类型关键词,即获取各日志项的类型关键词作为类型特征,若不包含所属类型关键词,则根据日志项所属的进程组类型为日志项分配所属的类型关键词,并将类型关键词作为类型特征,其中,类型关键词包括INFO、WARN和ERROR;
步骤2.2:提取各日志序列中日志项的时间戳,并计算各日志项距离上一条日志项的输出时间间隔,将其作为当前日志序列的时间特征,其中,第一个日志项是直接获取时间;
步骤2.3:统计每一个不同日志项在日志序列中的数量作为各日志序列的数量特征;
步骤2.4:使用One-Hot编码的方式对类型特征、时间特征、数量特征进行向量编码,得到类型特征向量、时间特征向量和数量特征向量,同时,使用 BERT和TF-IDF对语义特征进行向量化处理,其中,BERT将语义特征中的单词转化为词向量,通过TF-IDF给不同的词向量赋予不同的权重,得到语义信息的向量化表示,即得到语义特征向量;
所述步骤4的具体步骤为:
将待检测的日志数据集输入训练好的BiGRU神经网络模型进行预测,得出当前日志序列中下一条日志项出现的概率,根据概率和所训练日志数据集的实际情况,正常的日志序列的下一个日志项会是确定的有限几个选择,通过确定这个选择的范围确定概率排名阈值K,若日志项出现的概率在前K项内时,判断其为正常的日志项,且日志序列内所有的日志项都为正常的日志项时,该日志序列为正常的日志序列;若日志项在K项之后的,判断为异常的日志项,则该日志序列为异常的日志序列。
2.根据权利要求1所述的一种基于日志全语义的多特征日志异常检测方法,其特征在于,所述步骤3中注意力机制的BiGRU神经网络模型包括依次设置的文本向量化输入层、隐含层和输出层;
隐含层包括依次设置的BiGRU层、attention 层和全连接层。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210230854.3/1.html,转载请声明来源钻瓜专利网。