[发明专利]一种独立于数据类型的无监督异常检测方法有效
申请号: | 202110378282.9 | 申请日: | 2021-04-08 |
公开(公告)号: | CN113076215B | 公开(公告)日: | 2023-06-20 |
发明(设计)人: | 何克晶;罗钲宇 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06N3/088 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 何淑珍;江裕强 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 立于 数据类型 监督 异常 检测 方法 | ||
1.一种独立于数据类型的无监督异常检测方法,其特征在于,包括以下步骤:
(1)对给定的任意类型的数据进行预处理,构建训练数据集;
对给定的任意类型的数据进行预处理包括:
对于静态数据类型,对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布;
对于图像数据类型,对每一个像素点进行简单缩放,使得经过处理后的数据分布在[0,1]的区间范围内;
对于时间序列数据类型,先对每一个特征维度进行标准差标准化,即均值为0,标准差为1,使得经过处理后的数据服从标准正态分布,再以步长为s的固定大小的滑动窗口对序列进行采样;
(2)构建自编码器网络,对数据进行维度压缩和特征提取;
(3)构建正常数据提取层,对数据进行进一步正常特征提取;
(4)用概率密度函数高斯混合模型对正常特征的数据分布进行拟合;
(5)对无监督异常检测网络进行训练;
(6)使用训练完成的神经网络对测试数据集进行预测,当测试数据的异常概率大于指定阈值时,将该数据视为异常;
所述自编码器网络对数据进行维度压缩和特征提取如下:
z=ε(x)
其中,x表示为输入数据;ε为采用的自编码器网络,根据不同的数据类型的特点和输入数据的表示形式不同,自适应地选择不同的自编码器网络对相应的数据类型数据进行维度压缩和特征提取;
对于静态数据类型,输入数据表示为[批数,特征数],自编码器网络为采用全连接层的自编码器网络,对数据进行维度压缩和非线性特征提取;
对于图像数据类型,输入数据表示为[批数,图片高度,图片宽度,通道数],自编码器网络为采用卷积神经网络的自编码网络,对数据进行维度压缩和空间特征提取;
对于时间序列数据类型,输入数据表示为[批数,步长,特征数],自编码器网络为采用长短期记忆网络的自编码器网络,对数据进行维度压缩和时间依赖特征提取。
2.如权利要求1所述的一种独立于数据类型的无监督异常检测方法,其特征在于,步骤(3)具体为:假定数据中的异常是由于数据的部分特征发生异常而引起的,那么原始数据被划分为正常的数据特征和异常的数据特征,基于此,正常的数据特征用低秩的矩阵表示,异常的数据特征用一个稀疏的矩阵表示;通过线性转换找到子空间,使正常的数据特征都分布在这个子空间上,而异常的数据特征分布在这个子空间外,从而进行正常数据的提取:
z′=×z
其中,M是一个服从正态分布的正交矩阵,z为特征向量,经过线性转换后的z′被视为仅包含正常数据的特征表示。
3.如权利要求2所述的一种独立于数据类型的无监督异常检测方法,其特征在于,所述概率密度函数高斯混合模型为K个高斯分布函数线性组合的模型,每个高斯分布函数都有一组参数,这组参数包括:混合模型权重γ、混合模型分布φ、混合模型均值μ、混合模型方差Σ;使用多层感知器来生成初始的混合模型权重γ,再在这基础上计算合模型分布φ、混合模型均值μ和混合模型方差Σ:
γ=softmax(MLP(z′))
其中,γi,k表示混合权重,φk、μk、Σk分别表示K个模型分布,混合模型均值和混合模型方差,z′表示仅包含正常数据的特征表示,MLP为多层感知器,softmax()为归一化指数函数,K为高斯混合模型的高斯分布函数个数,N为数据批数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110378282.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种动作训练装置及高尔夫挥杆训练方法
- 下一篇:直线压缩机