[发明专利]集群日志特征提取方法、装置及存储介质在审
申请号: | 201910123928.1 | 申请日: | 2019-02-19 |
公开(公告)号: | CN109992569A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 吴超勇;陈仕财 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G06F16/17 | 分类号: | G06F16/17;G06F16/182;G06F16/215 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 董永辉;李玉琦 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 原始数据 相关度 集群 存储介质 日志特征 生产数据 有效信息 采集服务器 服务器集群 特征值提取 波形指标 故障分类 故障预测 日志数据 生产事故 生产系统 数据清洗 无效数据 有效筛选 有效数据 客户端 脉冲 基架 峭度 日志 运维 剔除 运算 主机 数据库 发送 筛选 | ||
1.一种集群日志特征提取方法,应用于电子装置,其特征在于,包括以下步骤:
通过flume客户端采集服务器集群的日志,发送至Hbase数据库,其中,flume客户端通过多个Agent进程对应采集服务器集群中的每台服务器的日志,Agent定时将对应的服务器上的日志数据收集并通过API接口发送到Hbase数据库;
利用Hadoop对日志数据进行数据清洗,筛选出原始数据,其中原始数据至少包括服务器磁盘占用率、内存使用率、cpu占用率、业务接口调用量;
对原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取;
运用皮尔逊相关系数筛选出有效特征:将提取的特征值分别与原始数据进行皮尔逊相关系数的运算,根据计算出的相关系数与相关度阈值进行比较,高于相关度阈值则是有效数据,低于相关度阈值则是无效数据,并予以剔除。
2.根据权利要求1所述的集群日志特征提取方法,其特征在于,
在数据清洗过程中,采用拉依达准则剔除具有粗大误差的数据,包括以下步骤:
对日志数据x1,x2...,xn,计算其算术平均值及剩余误差其中,xi为单次Agent采集的日志数据;
计算标准偏差Sx,
若日志数据中的xb的剩余误差vb(1≤b≤n),满足公式
则确定xb是含有粗大误差值的奇异值,并剔除奇异值。
3.根据权利要求2所述的集群日志特征提取方法,其特征在于,
对日志数据的奇异值用中值替代,其中所述中值是指将各个日志数据x1,x2...,xn按大小顺序排列,处于中间位置的值称为中值。
4.根据权利要求2所述的集群日志特征提取方法,其特征在于,
原始数据进行包括均值、有效值、峰值、方根幅值、波形指标、脉冲指标、峭度指标的特征值提取,其中,
有效值采用如下公式计算:
峰值采用如下公式计算:
Xp=max(xi)
方根幅值采用如下公式计算:
波形指标采用如下公式计算:
脉冲指标采用如下公式计算:
峭度指标采用如下公式计算:
其中,xi为单次Agent采集的日志数据;
N为数据采集的次数;
为采集的日志数据的算术平均值;
Xrms为采集的日志数据的有效值;
Xp为采集的日志数据的峰值;
Xr为采集的日志数据的方根幅值;
Xws为采集的日志数据的波形指标;
Xif为采集的日志数据的脉冲指标;
Xkv为采集的日志数据的峭度指标。
5.根据权利要求2所述的集群日志特征提取方法,其特征在于,皮尔逊相关系数的公式如下:
其中,xi为单次Agent采集的日志数据;
yi为单次Agent采集数据中提取的某一特征值;
是日志数据x1,x2...,xn的算数平均值;
是y1,y2...,yn的算数平均值;
N为日志数据采集的次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910123928.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种信息处理方法及装置
- 下一篇:一种嵌入式系统的文件同步方法