[发明专利]基于多元特征矩阵的XGB多维运维数据异常检测方法在审
申请号: | 202010194474.X | 申请日: | 2020-03-19 |
公开(公告)号: | CN111461184A | 公开(公告)日: | 2020-07-28 |
发明(设计)人: | 朱耀琴;韩仁松 | 申请(专利权)人: | 南京理工大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N20/20 |
代理公司: | 南京理工大学专利中心 32203 | 代理人: | 朱炳斐;马鲁晋 |
地址: | 210094 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多元 特征 矩阵 xgb 多维 数据 异常 检测 方法 | ||
1.一种基于多元特征矩阵的XGB多维运维数据异常检测方法,其特征在于,所述方法包括以下步骤:
步骤1,根据产品服务数据,构建采集数据的METRIC表;
步骤2,根据METRIC表采集产品服务的运维数据,构造训练样本;
步骤3,根据训练样本构建数据集;
步骤4,利用数据集训练XGB模型;
步骤5,利用训练后的XGB模型对待检测运维数据进行异常检测。
2.根据权利要求1所述的基于多元特征矩阵的XGB多维运维数据异常检测方法,其特征在于,步骤1中所述METRIC表的横坐标表示所有产品服务数据名称,纵坐标表示时间节点。
3.根据权利要求1或2所述的基于多元特征矩阵的XGB多维运维数据异常检测方法,其特征在于,步骤2所述根据METRIC表采集产品服务的运维数据,构造训练样本,具体过程包括:
步骤2-1,设置采集运维数据的时间窗口长度标准,其用多元组表示为:
(WindowLength,TimeUnit,TimeInterval,TimePeriod,TimeLength)
式中,WindowLength表示时间窗口长度,TimeUnit表示运维数据采集时间单位,TimeInterval表示运维数据采集时间间隔,TimePeriod表示运维数据时间周期,TimeLength表示运维数据采集时间段长度;其中,
步骤2-2,根据时间窗口长度标准和METRIC表采集产品服务的运维数据,构造若干个训练样本;每一个训练样本对应一个包含运维数据的METRIC表;
步骤2-3,对每一个训练样本进行样本打标,划分正常样本和异常样本,分别作为负样本和正样本。
4.根据权利要求3所述的基于多元特征矩阵的XGB多维运维数据异常检测方法,其特征在于,步骤3所述根据训练样本构建数据集,具体过程包括:
步骤3-1,按照时间节点先后顺序对所有训练样本进行排列,形成训练样本序列;
步骤3-2,利用基于滑动窗口的数据集训练方法从所述训练样本序列中提取训练样本,构造数据集。
5.根据权利要求4所述的基于多元特征矩阵的XGB多维运维数据异常检测方法,其特征在于,步骤4所述利用数据集训练XGB模型,具体过程包括:
步骤4-1,对数据集中的负样本进行欠采样处理;
步骤4-2,对数据集中每一个样本的所有运维数据进行归一化处理;
步骤4-3,针对每一个样本中的每一类运维数据,提取其数据特征,包括统计特征、分类特征和序列特征;其中,序列特征为基于时间序列分析方法提取的特征;
步骤4-4,针对每一个样本,构建其多元特征矩阵MF:
式中,为第i个维度运维数据的统计特征向量,为第i个维度运维数据的分类特征向量,为第i个维度运维数据的序列特征向量,i∈[1,n];
步骤4-5,对MF进行纵向处理,获得新的多元特征矩阵MF':
式中,
步骤4-6,初始化XGB模型的训练参数;
步骤4-7,分别为统计特征、分类特征和序列特征分配权重ω1、ω2、ω3,ω1+ω2+ω3=1,之后将所有样本对应的多元特征矩阵输入至XGB模型进行训练,更新XGB模型的参数,直至达到预设训练结束条件,输出最终的XGB模型及其参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京理工大学,未经南京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010194474.X/1.html,转载请声明来源钻瓜专利网。