[发明专利]基于分布式数据流的核密度估计离群点的检测方法在审

申请号：	201611132310.4	申请日：	2016-12-09
公开（公告）号：	CN106815299A	公开（公告）日：	2017-06-09
发明（设计）人：	周洋;丁星;武静;杨春勇;闵圣捷	申请（专利权）人：	中电科华云信息技术有限公司
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	上海汉声知识产权代理有限公司31236	代理人：	郭国中
地址：	200231 上海市***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于分布式数据流密度估计离群检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种核密度估计离群点的检测方法，特别是涉及一种基于分布式数据流的核密度估计离群点的检测方法。

背景技术

对于流式处理数据进行核密度估计的时候，由于数据量很大，在实际的环境中往往都是分布式的方式进行存储，这个时候由于分布式的环境复杂，各个节点之间的网络通信的阻塞，带宽不均衡等原因，可以造成局部或则某个节点的数据分布的核密度估计离群点对于整体节点的分布而言是正常节点。那么这样基于局部的判断就是无效的。这个时候对于应该把局部数据汇聚到主节点作为整体的样本数据参与计算。但是由于数据量特别大，我采用采样的方式进行计算，采样的方式采用两种窗口方式进行采样。通过不断的迭代来减小误差来达到离群点的检测。

发明内容

本发明所要解决的技术问题是提供一种基于分布式数据流的核密度估计离群点的检测方法，其能够通过hash方式进行分布式存储，让数据尽量的分布均匀，采用滑动窗口采样的方式进行计算，减少了计算量，减少离群点检测的误差。

本发明是通过下述技术方案来解决上述技术问题的：一种基于分布式数据流的核密度估计离群点的检测方法，其包括以下步骤：

步骤一，对流式数据集通过hash方式进行分布式存储，让数据尽量的分布均匀；

步骤二，根据多粒度偏差因子定义新的核密度，并在其基础上给出了一种新的离群点定义，它的主要思想是对每个点周围的数据分布密度进行估计，以此判断其离群度，具有对参数依赖小的特点，然后在这个新离群点定义的基础上定义新的核函数，用此核函数做密度估计；

步骤三，滑动窗口对局部节点的数据进行采样；

步骤四，对采样的数据进行总体的核密度估计，并记录离群点；

步骤五，最后不断的迭代以上步骤实现最小误差收敛，结束进程。

优选地，所述步骤三采用两种滑动窗口对局部节点的数据进行采样，一、最新达到的n个样本数据，二、某段时间内达到的样本数据。

本发明的积极进步效果在于：本发明能够对于核估计函数的重新定义，重新估计样本离群点；对于大量整体样本的计算采用滑动窗口采样的方式进行计算，而不是全体数据的计算，减少了计算量；通过迭代方式的方式重复抽样局部节点数据可以达到概率上的收敛。

附图说明

图1为本发明的流程图。