[发明专利]用于对日志进行分类的方法及装置有效

申请号：	201711221939.0	申请日：	2017-11-29
公开（公告）号：	CN109947933B	公开（公告）日：	2023-07-04
发明（设计）人：	孙廷韬	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06F16/35	分类号：	G06F16/35;G06F16/31;G06F16/18
代理公司：	北京清源汇知识产权代理事务所(特殊普通合伙) 11644	代理人：	冯德魁;张艳梅
地址：	英属开曼群岛大开***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于日志进行分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种用于对日志进行分类的方法和装置，其中所述方法包括：获取日志；将所述日志对应的日志模式归入日志模式集合中；确定所述日志模式集合中日志模式数量超过设定阈值时，对日志模式集合中日志模式根据相似度进行分类，形成更新的日志模式集合。本申请不仅可以对存量日志进行分类，也能对实时产生的增量日志进行分类，适应场景更广泛，且复杂度低。

技术领域

本申请涉及数据分类领域，具体涉及一种用于对日志进行分类的方法及装置。

背景技术

随着云计算、大数据时代的到来，各式各样的日志(例如访问日志、系统日志、程序日志)的种类和规模大大增加。而这些日志是安全防御、入侵检查、系统分析、程序异常检查等各个领域所依赖的基础。日志量的增大也随之增加各种检测的难度，特别是部分需要人机交互的分析和检查。

在大量的日志中，往往有很多日志是非常相似的，相似度比较高的日志可以归为一类，从而将整体的日志划分成多个有代表性的日志pattern(日志模式)。现有技术下，通用的聚类算法中的划分法，在一定程度上，也可以对日志进行聚类，将相似度比较高的日志聚类在一起，比如K-Means算法。

K-means算法接受数据输入量K，将确定的N个数据对象划分成K类，同一个聚类中的相似度比较高(在日志场景中，就是同一类日志比较相似)。其基本工作过程如下：

1.从N个对象中随意选取K个(日志)作为初始聚类中心，而对剩余的日志分别计算和这K个聚类中的距离(日志的相似度)，将这些对象(日志)归类到距离最近的中心。

2.计算出每个聚类中新的聚类中心，该聚类中心为所有对象的均值。

3.不断重复这一个过程，直到标准测试函数收敛为止。

K-means算法存在以下缺陷：

1.K-means算法的划分法，首先需要确定全体数据集N，和需要划分的K个分类。在对日志场景中，这个条件往往不能确定，日志内容是实时产生的，同时在进行划分之前，也不能确定到底会有多少个合适的分类K；由于此算法不支持增量更新，初始的全体数据集N必须提前确定，导致了计算的结果是静态的，当有新的日志产生时，不能随着输入的逐步增加变化而动态计算、修正结果。因此此算法并不适合日志增量更新的场景。

2.使用K-means算法进行分类，复杂度高，不适合日志规模比较大的场景。

综上所述，现有技术对日志进行分类的方法存在不适合日志规模比较大的场景以及不适合日志增量更新的场景的缺陷。

发明内容

本申请提供一种用于对日志进行分类的方法，以解决现有技术对日志进行分类的方法存在不适合日志规模比较大的场景以及不适合日志增量更新的场景的问题。本申请另外提供一种用于对日志进行分类的装置。

本发明提供的一种用于对日志进行分类的方法，其包括：

获取日志；

将所述日志对应的日志模式归入日志模式集合中；

确定所述日志模式集合中日志模式数量超过设定阈值时，对日志模式集合中日志模式根据相似度进行分类，形成更新的日志模式集合。

可选的，所述获取日志包括：

逐一获取日志；或者

连续获取设定数目的日志。

可选的，所述将所述日志对应的日志模式归入日志模式集合中包括：