[发明专利]运维数据特征选择方法和装置有效

申请号：	202110390727.5	申请日：	2021-04-12
公开（公告）号：	CN113051452B	公开（公告）日：	2022-04-26
发明（设计）人：	裴丹;成逸然	申请（专利权）人：	清华大学
主分类号：	G06F16/907	分类号：	G06F16/907;G06F16/9035;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	王萌
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	数据特征选择方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种运维数据特征选择方法，其特征在于，包括以下步骤：

获取原始数据样本；

对所述原始数据样本进行预处理，获取多维数据样本；

通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重；

根据所述每维数据特征权重和预设权重阈值，从所述多维数据样本中筛选出目标数据集合；

其中，所述通过预设算法对所述多维数据样本进行计算，获取代价表达式计算数值最小时，输出每维数据特征权重，包括：

获取代价表达式，根据所述代价表达式对所述多维数据样本进行训练；其中，训练目标包括：在目标特征权重下使得异常数据和正常数据之间的边界距离大于预设第一阈值，所述异常数据之间的距离和所述正常数据之间的距离分别小于预设第二阈值；其中，所述预设第一阈值大于所述第二阈值，训练目标各部分的权重由给定的超参数决定；以及每次迭代计算过程中，目标特征权重的取值维持在特定范围之内；

所述代价表达式为：

其中，w为所求的每维数据特征权重，x_n为第nn条数据的向量表示，α、β、p₀、λ为超参数，d为距离函数；

其中，M_n为x_n的非同类别近似数据集，H_n为x_n的同类别近似数据集，P(x_i＝NM(x_n)|w)、P(x_i＝NH(x_n)|w)、P(x_i＝N(x_n)|w)为三个关于x_i和x_n的核函数，代表了两个数据向量在特征权重w下为近似数据的概率，超参数α表示无监督学习部分的权重，超参数β_n表示数据的放大倍数，若数据x_n为异常数据，则β_n取大于1的数值，否则β_n＝1，超参数λ表示对特征权重w的限制权重，L表示待训练的数据样本数量。