[发明专利]基于分布式数据流的核密度估计离群点的检测方法在审
申请号: | 201611132310.4 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106815299A | 公开(公告)日: | 2017-06-09 |
发明(设计)人: | 周洋;丁星;武静;杨春勇;闵圣捷 | 申请(专利权)人: | 中电科华云信息技术有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海汉声知识产权代理有限公司31236 | 代理人: | 郭国中 |
地址: | 200231 上海市*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于分布式数据流的核密度估计离群点的检测方法,其包括以下步骤步骤一,对流式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;步骤三,滑动窗口对局部节点的数据进行采样等。本发明能够通过hash方式进行分布式存储,让数据尽量的分布均匀,采用滑动窗口采样的方式进行计算,减少了计算量,减少离群点检测的误差。 | ||
搜索关键词: | 基于 分布式 数据流 密度 估计 离群 检测 方法 | ||
【主权项】:
一种基于分布式数据流的核密度估计离群点的检测方法,其特征在于,其包括以下步骤:步骤一,对流式数据集通过hash方式进行分布式存储,让数据尽量的分布均匀;步骤二,根据多粒度偏差因子定义新的核密度,并在其基础上给出了一种新的离群点定义,它的主要思想是对每个点周围的数据分布密度进行估计,以此判断其离群度,具有对参数依赖小的特点,然后在这个新离群点定义的基础上定义新的核函数,用此核函数做密度估计;步骤三,滑动窗口对局部节点的数据进行采样;步骤四,对采样的数据进行总体的核密度估计,并记录离群点;步骤五,最后不断的迭代以上步骤实现最小误差收敛,结束进程。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电科华云信息技术有限公司,未经中电科华云信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611132310.4/,转载请声明来源钻瓜专利网。