[发明专利]基于多层邻域划分的异常检验方法和装置在审

专利信息
申请号: 201810682469.6 申请日: 2018-06-27
公开(公告)号: CN110647899A 公开(公告)日: 2020-01-03
发明(设计)人: 闫壮 申请(专利权)人: 广东神马搜索科技有限公司
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 11205 北京同立钧成知识产权代理有限公司 代理人: 杨泽;刘芳
地址: 510627 广东省广州市天河区黄埔大*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 多层 邻域 异常检验 待检测数据 数据点 异常点 有效地 方法和装置 表征数据 序列对数 序列确定 构建 群体 自动化 敏感 全局
【说明书】:

发明实施例提供一种基于多层邻域划分的异常检验方法和装置,方法包括:获取待检测数据集中的多个数据点;根据每个数据点与待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;根据有序距离序列确定与数据点相对应的多层邻域以及与多层邻域相对应的多层邻域序列;根据多层邻域序列对数据点进行异常检验。本发明通过对每个数据点构建有序距离序列,利用自动化划分多层邻域的方式,得到表征数据点异常度的多层邻域序列,并根据多层邻域序列即可实现对数据点的异常检验,有效地解决了现有技术中存在的难以找到群体异常点、参数敏感的问题,可以有效地找到全局中规模小、密度大、远离多数点的群体异常点。

技术领域

本发明涉及数据处理技术领域,尤其涉及一种基于多层邻域划分的异常检验方法和装置。

背景技术

异常检测是数据挖掘的一个重要方向,目标是找出数据中“非预期”的模式。例如,在信用卡交易数据中找到欺诈交易,在网络流量中找到攻击流量,内容社区中找出垃圾内容等,都需要异常检测的技术。导致异常的原因有很多,其中,最常见的是异常点与其他个体来自不同的数据源,如网络中非法入侵的流量与正常流量就是两类;盗刷信用卡的用户与正常使用的用户也是两类人;此外,正态分布也会导致异常点出现,如正态分布下会有少数点偏离均值过远。

另外,根据数据类型和解决问题的不同,异常检测使用的方法和针对的对象也不同。有些问题中,需要找出单个个体在全局中的异常,如信用卡欺诈问题中,找出单个欺诈用户;有些问题中,需要找出异常的群体,如网络流量分布式攻击时,找出一批攻击的源IP;有的问题涉及情景和上下文,需要根据不同的条件、时间、空间等,找出异常的点,如找出股票价格序列中异常的时间点,或者,在地理勘测时,根据不同的气候水文条件判断环境变异等。

对于上述前两类问题,现有技术中常用的思路是先计算距离和密度,而后找出“稀疏”和“远”的点,其中,最常用的算法是局部离群因子(Local Outlier Factor,简称LOF)算法,它是一种基于密度的异常检验算法,具体的,首先,通过定义邻域距离k、两点间可达距离,而后,比较点p的密度与它的邻域的密度,计算出一个点的“局部可达密度”,该值可以表示点p的异常程度。

然而,上述类似于LOF的基于距离和密度的方法具有一定的局限性,具体的,1)难以找到群体异常点,因为LOF等算法需要初始化指定一个圈定邻域的参数k和ε,而群体的大小是无法确定的,参数k和ε固定会使得群体异常被漏掉;2)参数敏感,参数k和ε直接影响异常度的计算,当数据分布改变,旧的参数会使异常检测迅速变得不准,需要人工不断的调参,增加了用户操作的复杂程度。

发明内容

本发明实施例提供了一种基于多层邻域划分的异常检验方法和装置,用以解决现有技术中存在的难以找到群体异常点、参数敏感的问题。

本发明实施例第一方面提供了一种基于多层邻域划分的异常检验方法,包括:

获取待检测数据集中的多个数据点;

根据每个数据点与所述待检测数据集中的其他数据点的位置关系确定每个数据点的有序距离序列;

根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列;

根据所述多层邻域序列对所述数据点进行异常检验。

如上所述的方法,根据所述有序距离序列确定与所述数据点相对应的多层邻域以及与所述多层邻域相对应的多层邻域序列,包括:

获得所述有序距离序列中的多个距离转折点;

根据所述距离转折点确定所述多层邻域以及所述多层邻域序列。

如上所述的方法,根据所述距离转折点确定所述多层邻域序列,包括:

获取所述距离转折点的序列位置和转折距离;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东神马搜索科技有限公司,未经广东神马搜索科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810682469.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top