[发明专利]一种日志压缩方法、装置、电子设备及存储介质在审
申请号: | 202011539773.9 | 申请日: | 2020-12-23 |
公开(公告)号: | CN112559465A | 公开(公告)日: | 2021-03-26 |
发明(设计)人: | 张广艳;魏钧宇;郑伟民 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/174 | 分类号: | G06F16/174;G06F16/18 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 日志 压缩 方法 装置 电子设备 存储 介质 | ||
1.一种日志压缩方法,其特征在于,包括:
将日志文件分为日志头和日志体,计算所述日志头中的时间数据的差分值,得到日志头时间差分值;
通过预训练前缀树对所述日志体进行匹配,得到所述日志体匹配的日志模板编号和日志变量;
将所述日志模板编号对应的变量关联关系应用到所述日志变量上,得到所述日志变量的残差变量;
将所述日志体匹配的日志模板编号、日志变量的残差变量和所述日志头时间差分值,通过弹性编码的方式进行编码,得到编码结果,根据所述编码结果得到日志压缩结果。
2.根据权利要求1所述日志压缩方法,其特征在于,在所述通过预训练前缀树对所述日志体进行匹配的步骤之前,所述方法还包括:
获取日志样本,将所述日志样本分为日志头样本和日志体样本;
根据所述日志体样本构建日志前缀树,并得到日志模板;
通过所述日志模板提取每个日志模板对应的样本变量,根据所述样本变量,通过枚举的方式,确定每个日志模板的变量关联关系,得到预训练前缀树。
3.根据权利要求2所述日志压缩方法,其特征在于,根据所述日志体样本构建日志前缀树,并得到日志模板的步骤,具体包括:
根据所述日志体样本的日志长度,构建前缀树的内部节点;
其中,所述日志长度是指日志体样本按照预设分割符切分为不同的段之后,单条日志所包含的段的数目;
根据新的日志体样本的日志长度,确定所述日志长度内部节点对应的日志模板组;
将新的日志体样本与所述日志模板组进行相似度比较,在相似度小于预设阈值时,将所述新的日志体样本添加到日志模板组中,更新前缀树的叶节点。
4.根据权利要求2所述日志压缩方法,其特征在于,通过所述日志模板提取每个日志模板对应的样本变量,根据所述样本变量,通过枚举的方式,确定每个日志模板的变量关联关系的步骤,具体包括:
根据所述每个日志模板的样本变量,通过枚举的方式,得到所述样本变量之间的典型数字关系;
所述典型数字关系,包括:变量类内关系、变量类间关系和混合关系;
计算每一种典型数字关系对应的残差变量,并计算每一个残差变量的熵值;
根据每一个残差变量的熵值,贪心地选择熵值尽可能低的残差变量,得到每个日志模板的变量关联关系。
5.根据权利要求1所述日志压缩方法,其特征在于,所述通过预训练前缀树对所述日志体进行匹配,得到所述日志体匹配的日志模板编号和日志变量的步骤,具体包括:
按照预设分隔符将所述日志体分割为不同段,根据分割后所得段的数目确定所述日志体对应的日志模板组;
根据所述日志模板组对所述日志体进行匹配,得到所述日志体匹配的日志模板编号和日志变量。
6.根据权利要求1所述日志压缩方法,其特征在于,所述通过弹性编码的方式进行编码,得到编码结果的步骤,具体包括:
将数据中最高的符号位通过循环左移到最低位,得到第一中间数据;
然后将第一中间数据中的正数保持不变,对于第一中间数据中的负数来说,将除最后一位以外的其他位都翻转,由此得到第二中间数据;
将所述第二中间数据的所有比特,切分为7个比特一组的小段,对于每一个小段添加0或者1的标志来标识当前段是否为最后一段,得到第三中间数据;
将第三中间数据中所有前导全0的段统一删去,得到编码结果。
7.根据权利要求1所述日志压缩方法,其特征在于,根据所述编码结果得到日志压缩结果的步骤,具体包括:
将所述日志头中的除时间数据外的其它数据和所述编码结果进行打包处理,得到日志压缩结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011539773.9/1.html,转载请声明来源钻瓜专利网。