[发明专利]基于分布式数据流的核密度估计离群点的检测方法在审
申请号: | 201611132310.4 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106815299A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 周洋;丁星;武静;杨春勇;闵圣捷 | 申请(专利权)人: | 中电科华云信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 200231 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 分布式 数据流 密度 估计 离群 检测 方法 | ||
技术领域
本发明涉及一种核密度估计离群点的检测方法,特别是涉及一种基于分布式数据流的核密度估计离群点的检测方法。
背景技术
对于流式处理数据进行核密度估计的时候,由于数据量很大,在实际的环境中往往都是分布式的方式进行存储,这个时候由于分布式的环境复杂,各个节点之间的网络通信的阻塞,带宽不均衡等原因,可以造成局部或则某个节点的数据分布的核密度估计离群点对于整体节点的分布而言是正常节点。那么这样基于局部的判断就是无效的。这个时候对于应该把局部数据汇聚到主节点作为整体的样本数据参与计算。但是由于数据量特别大,我采用采样的方式进行计算,采样的方式采用两种窗口方式进行采样。通过不断的迭代来减小误差来达到离群点的检测。
发明内容
本发明所要解决的技术问题是提供一种基于分布式数据流的核密度估计离群点的检测方法,其能够通过hash方式进行分布式存储,让数据尽量的分布均匀,采用滑动窗口采样的方式进行计算,减少了计算量,减少离群点检测的误差。
本发明是通过下述技术方案来解决上述技术问题的:一种基于分布式数据流的核密度估计离群点的检测方法,其包括以下步骤:
步骤一,对流式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;
步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;
步骤三,滑动窗口对局部节点的数据进行采样;
步骤四,对采样的数据进行总体的核密度估计,并记录离群点;
步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程。
优选地,所述步骤三采用两种滑动窗口对局部节点的数据进行采样,一、最新达到的n个样本数据,二、某段时间内达到的样本数据。
本发明的积极进步效果在于:本发明能够对于核估计函数的重新定义,重新估计样本离群点;对于大量整体样本的计算采用滑动窗口采样的方式进行计算,而不是全体数据的计算,减少了计算量;通过迭代方式的方式重复抽样局部节点数据可以达到概率上的收敛。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图给出本发明较佳实施例,以详细说明本发明的技术方案。
如图1所示,本发明基于分布式数据流的核密度估计离群点的检测方法包括以下步骤:
步骤一,对流式数据集通过hash(散列)方式进行分布式存储,让数据尽量的分布均匀;
步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;
步骤三,滑动窗口对局部节点的数据进行采样;
步骤四,对采样的数据进行总体的核密度估计,并记录离群点;
步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程。
所述步骤三采用两种滑动窗口对局部节点的数据进行采样,一、最新达到的n个样本数据,二、某段时间内达到的样本数据。n为自然数。
以上所述的具体实施例,对本发明的解决的技术问题、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科华云信息技术有限公司,未经中电科华云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611132310.4/2.html,转载请声明来源钻瓜专利网。