[发明专利]一种高维大数据离群点检测方法在审

申请号：	202110354524.0	申请日：	2021-04-01
公开（公告）号：	CN112905583A	公开（公告）日：	2021-06-04
发明（设计）人：	郭鹏飞;李鑫	申请（专利权）人：	辽宁工程技术大学
主分类号：	G06F16/215	分类号：	G06F16/215;G06F16/28;G06N5/00
代理公司：	沈阳东大知识产权代理有限公司 21109	代理人：	梁焱
地址：	125105 辽***	国省代码：	辽宁;21
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高维大数据离群检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高维大数据离群点检测方法，其特征在于，包括：

步骤1：利用主成分分析法对输入的高维大数据进行降维处理；

步骤2：对降维后的数据用iForest算法进行异常值检测。

2.根据权利要求1所述的高维大数据离群点检测方法，其特征在于，步骤1所述的利用主成分分析法对输入的高维大数据进行降维处理，包括如下内容：首先分别求解大数据样本点各属性的属性值的平均值，使各属性的每一属性值减去对应的平均值；然后将每个属性值作为变量，根据各属性值与对应的平均值的差值，求解属性的协方差矩阵；再然后通过协方差矩阵求解特征值和特征向量；又然后将特征值按照从大到小的顺序排序，选择其中最大的k个，最后将其对应的k个特征向量分别作为列向量组成特征向量矩阵，并将样本点投影到选取的k个特征向量上。

3.根据权利要求1或2所述的高维大数据离群点检测方法，其特征在于，所述步骤2为对降维后的数据用基于k-means的iForest算法进行异常值检测。

4.根据权利要求3所述的高维大数据离群点检测方法，其特征在于，所述步骤2包括如下步骤：

步骤2.1：从降维处理后得到的一组连续性数据组成的训练集中随机选择多个样本数据点作为子采样集，将该子采样集作为iTree的根节点；

步骤2.2：从当前子采样集中随机选择一个维度，维度的值构成一个集合，利用k-means聚类算法将该集合的最大值和最小值之间的数值分为多个簇，每个簇作为一个子节点；

步骤2.3：对步骤2.2得到的子节点随机选择一个其他维度，再利用k-means聚类算法将每个子节点的最大值和最小值之间的数值分为多个簇，每个簇作为一个新的子节点；

步骤2.4：按照步骤2.2和2.3的方法，重复执行步骤2.3，不断构造新的子节点，直至满足停止条件；

步骤2.5：重复执行步骤2.1至2.4，直至iTree的数量达到指定数量，由这些iTree组成一个iForest；

步骤2.6：通过遍历iForest，对任一查询数据x进行评分，并根据查询数据x的得分进行异常值检测；

通过对iForest中iTree的遍历，获得对象x在不同聚类中的得分值：

其中，d(x,c_q)表示对象x到聚类中心c_q的距离；d(c_l,c_q)代表聚类半径；c_l代表距离聚类中心c_q最远的对象；s被视为对象x在聚类中的得分；

对象x的最终得分是其在不同聚类中的得分值的总和除以iTree个数，即：

其中，s_j(x)为对象x在第j聚类中的得分；N为iForest中iTree的数量；M为iTree中聚类的数量。