[发明专利]运维数据特征选择方法和装置有效
申请号: | 202110390727.5 | 申请日: | 2021-04-12 |
公开(公告)号: | CN113051452B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 裴丹;成逸然 | 申请(专利权)人: | 清华大学 |
主分类号: | G06F16/907 | 分类号: | G06F16/907;G06F16/9035;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 特征 选择 方法 装置 | ||
1.一种运维数据特征选择方法,其特征在于,包括以下步骤:
获取原始数据样本;
对所述原始数据样本进行预处理,获取多维数据样本;
通过预设算法对所述多维数据样本进行计算,获取代价表达式计算数值最小时,输出每维数据特征权重;
根据所述每维数据特征权重和预设权重阈值,从所述多维数据样本中筛选出目标数据集合;
其中,所述通过预设算法对所述多维数据样本进行计算,获取代价表达式计算数值最小时,输出每维数据特征权重,包括:
获取代价表达式,根据所述代价表达式对所述多维数据样本进行训练;其中,训练目标包括:在目标特征权重下使得异常数据和正常数据之间的边界距离大于预设第一阈值,所述异常数据之间的距离和所述正常数据之间的距离分别小于预设第二阈值;其中,所述预设第一阈值大于所述第二阈值,训练目标各部分的权重由给定的超参数决定;以及每次迭代计算过程中,目标特征权重的取值维持在特定范围之内;
所述代价表达式为:
其中,w为所求的每维数据特征权重,xn为第nn条数据的向量表示,α、β、p0、λ为超参数,d为距离函数;
其中,Mn为xn的非同类别近似数据集,Hn为xn的同类别近似数据集,P(xi=NM(xn)|w)、P(xi=NH(xn)|w)、P(xi=N(xn)|w)为三个关于xi和xn的核函数,代表了两个数据向量在特征权重w下为近似数据的概率,超参数α表示无监督学习部分的权重,超参数βn表示数据的放大倍数,若数据xn为异常数据,则βn取大于1的数值,否则βn=1,超参数λ表示对特征权重w的限制权重,L表示待训练的数据样本数量。
2.如权利要求1所述的方法,其特征在于,所述对所述原始数据样本进行预处理,获取多维数据样本,包括:
根据所述原始数据样本中的数据类型确定待填充字段数据,并对所述待填充字段数据进行填充处理;
识别所述原始数据样本中的时间戳字段,并对所述时间戳字段进行屏蔽处理,获取所述多维数据样本。
3.如权利要求1所述的方法,其特征在于,还包括:
获取在线待处理数据;
根据所述目标数据集合对所述在线待处理数据筛选,获取目标数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110390727.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置