[发明专利]基于互信息和特征分组策略的高维异常检测预处理方法在审
申请号: | 202110633324.9 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113419883A | 公开(公告)日: | 2021-09-21 |
发明(设计)人: | 黄月华;刘文芬;穆晓东;王中帅 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06F11/07 | 分类号: | G06F11/07;G06K9/62 |
代理公司: | 桂林文必达专利代理事务所(特殊普通合伙) 45134 | 代理人: | 张学平 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 互信 特征 分组 策略 异常 检测 预处理 方法 | ||
本发明涉及电子数字数据处理领域,公开了一种基于互信息和特征分组策略的高维异常检测预处理方法,包括输入高维数据集;计算数据集中每两个特征的互信息,得到互信息矩阵;基于互信息矩阵生成子图集;对子图集中的每个子图是否需要继续切割进行判断,若需要切割则引入NCut切图对子图采用递归的方法进行循环切割,直至不满足切割条件;若不满足切割条件则得到特征组;将所有特征组组合成特征分组集。在不引入参数的前提下,解决了第一次分组结果粒度过大的问题。为高维异常检测提供了一种无参无监督的数据预处理方法,提高了传统异常检测方法在高维数据上的检测性能。
技术领域
本发明涉及电子数字数据处理领域,尤其涉及一种基于互信息和特征分组策略的高维异常检测预处理方法。
背景技术
异常检测的目的是找出与大部分对象不同的对象,这部分对象被称为异常点或离群点。该技术常被应用在故障检测、欺诈检测、网络入侵检测等领域。异常检测的难点在于异常的定义和检测。在不同的场景下,对异常的定义往往不同,甚至是同一场景下,正常和异常的界限也不十分明确,阈值参数因此难以选取。在实际检测中,异常标签往往获取困难,主要体现在获取成本高和存在未知异常。因此从提前预防异常的角度讲,很难通过预设参数或提前训练数据来发现未知的异常,设计无参数无监督的异常检测算法对提前识别异常、预防异常有着重要意义。
在面对高维数据(通常在10维以上)时,由于数据的高度稀疏性,数据点之间几乎等距离,传统异常检测算法基于距离和基于密度的异常意义失效。因此,针对高维数据,通常需要通过降维或特征选择等预处理方法预来降低数据维度。例如张博文等提出的KDOF算法和王康提出的GKDELOF算法都在异常检测前运用t-SNE(t-Distributed StochasticNeighbor Embedding)算法对数据进行特征提取,ZONG B的DAGMM和邹承明的MAGMM通过深度自编码器来生成数据的低维表示,张鑫的MCC-NES和许行的MIFS提出了针对不同细分问题的特征选择方法。上述工作在高维数据异常检测方面取得了很大的进展,但也存在一定局限性。无论是降维还是特征选择都难免要丢失部分特征信息,由于异常点本身的不确定性和未知性,很难保证这些丢失的信息中不包含异常信息,也很难保证未来这些维度不发生异常。
发明内容
本发明的目的在于提供一种基于互信息和特征分组策略的高维异常检测预处理方法,旨在在不引入参数和不减少原有特征信息的前提下,为高维异常检测提供一种数据预处理方法。
为实现上述目的,第一方面,本发明提供了一种基于互信息和特征分组策略的高维异常检测预处理方法,包括:输入高维数据集;计算数据集中每两个特征的互信息,得到互信息矩阵;基于互信息矩阵生成子图集;对子图集中的每个子图是否需要继续切割进行判断,若需要切割则引入NCut切图对子图采用递归的方法进行循环切割,直至不满足切割条件;若不满足切割条件则得到特征组;将所有特征组组合成特征分组集。
其中,所述计算数据集中每两个特征的互信息,得到互信息矩阵的具体步骤是:基于联合分布对任意两个特征进行处理,得到互信息;计算所有特征两两间的互信息,得到互信息矩阵。
其中,所述基于联合分布对任意两个特征进行处理,得到互信息之后,所述计算所有特征两两间的互信息,得到互信息矩阵之前,所述步骤还包括对互信息进行归一化。
其中,所述基于互信息矩阵生成子图集的具体步骤是:将互信息矩阵视为图的邻接矩阵,构建带权重的无向全连通图;遍历全连通图所有节点,只保留与每个节点相连的权重最大的边,生成子图集。
其中,所述对子图集中的每个子图是否需要继续切割进行判断,若需要切割则引入NCut切图对子图采用递归的方法进行循环切割,直至不满足切割条件;若不满足切割条件则得到特征组的具体步骤是:
计算子图最弱边权重;
计算子图节点数占整体节点数的比例;
生成一个0到1之间的随机数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110633324.9/2.html,转载请声明来源钻瓜专利网。