[发明专利]一种日志处理方法、装置、设备及可读存储介质在审
申请号: | 202211375720.7 | 申请日: | 2022-11-04 |
公开(公告)号: | CN115580531A | 公开(公告)日: | 2023-01-06 |
发明(设计)人: | 李峰;张士峰 | 申请(专利权)人: | 深信服科技股份有限公司 |
主分类号: | H04L41/069 | 分类号: | H04L41/069;H04L41/0631;G06F40/284;G06F18/23 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 邱青云 |
地址: | 518055 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 处理 方法 装置 设备 可读 存储 介质 | ||
本申请公开了计算机技术领域内的一种日志处理方法、装置、设备及可读存储介质。本申请公开的方法包括:获取属于同一客户的同源IP日志,并确定同源IP日志中的各告警类型对应的词嵌入特征;确定同源IP日志中每条告警类型的编码特征;基于同源IP日志中每条告警类型的词嵌入特征和编码特征,对同源IP日志中的各告警类型进行聚类处理。其中,词嵌入特征能够体现出同源IP日志中不同告警类型之间的共现关系,编码特征能够体现各告警类型本身的特征,结合多维度的特征信息对各告警类型进行聚类处理,可以提高日志归类的准确率和效率。本申请提供的一种日志处理装置、设备及可读存储介质,也同样具有上述技术效果。
技术领域
本申请涉及计算机技术领域,特别涉及一种日志处理方法、装置、设备及可读存储介质。
背景技术
目前,防火墙、入侵检测系统和蜜罐等安全设备会记录各种各样的告警类型,这些日志往往针对不同设备进行告警,且数据量巨大。为便于分析这些告警类型,需要技术人员查询预先定义的日志归类表,从而将相似日志或重复日志归类在一起。该过程依赖技术人员的经验,还存在着一定的时间滞后性,准确率和效率较低。
因此,如何提高告警类型的归类准确率和效率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种日志处理方法、装置、设备及可读存储介质,以提高告警类型的归类准确率和效率。其具体方案如下:
第一方面,本申请提供了一种日志处理方法,包括:
获取属于同一客户的同源IP日志,并确定所述同源IP日志中的各告警类型对应的词嵌入特征;所述同源IP日志中具有共现关系的不同告警类型对应的词嵌入特征相似;
确定所述同源IP日志中每条告警类型的编码特征;
基于所述同源IP日志中每条告警类型的词嵌入特征和编码特征,对所述同源IP日志中的各告警类型进行聚类处理。
可选地,所述确定所述同源IP日志中的各告警类型对应的词嵌入特征,包括:
将所述同源IP日志中的各告警类型的告警标识信息作为词汇,构建待识别句子;
将所述待识别句子输入词嵌入模型,以使所述词嵌入模型输出所述同源IP日志中各告警类型的词嵌入特征。
可选地,所述确定所述同源IP日志中每条告警类型的编码特征,包括:
针对所述同源IP日志中的每条告警类型,对任一告警类型的各组成部分分别进行编码,并拼接各组成部分的编码结果,得到该告警类型的编码特征。
可选地,所述同源IP日志中的每条告警类型包括:告警标识信息和告警描述信息,所述对任一告警类型的各组成部分分别进行编码,包括:
针对任一告警类型,通过归一化方法对所述告警标识信息进行编码,通过分词统计方法对所述告警描述信息进行编码。
可选地,所述通过分词统计方法对所述告警描述信息进行编码,包括:
对所述告警描述信息进行分词处理;
确定分词处理结果中的各词汇出现在预设词汇库中的统计信息,并基于所述统计信息确定所述告警描述信息的编码结果。
可选地,预设词汇库的生成过程包括:
对所述同源IP日志中的每条告警类型的告警描述信息进行分词处理;
滤除分词处理结果中出现频次小于预设阈值的词汇,并利用剩余词汇构建所述预设词汇库。
可选地,所述基于所述同源IP日志中每条告警类型的词嵌入特征和编码特征,对所述同源IP日志中的各告警类型进行聚类处理,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深信服科技股份有限公司,未经深信服科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211375720.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速去盖器
- 下一篇:一种测控网络边缘云计算的FPGA加速方法