[发明专利]一种基于边缘样本密度度量的最近邻异常检测方法在审
申请号: | 201811351192.5 | 申请日: | 2018-11-14 |
公开(公告)号: | CN109460791A | 公开(公告)日: | 2019-03-12 |
发明(设计)人: | 高欣;查森;井潇;何杨;任昺 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 测试点 样本 异常检测 度量 最近邻 全局 隔离 点区域边缘 分布特征 邻近区域 欧氏距离 随机采样 所在区域 异常分数 有效解决 正常样本 最近距离 训练集 最近点 点距 构建 子集 | ||
本发明实施例提出了一种基于边缘样本密度度量的最近邻异常检测方法,包括:多次随机采样获得正常样本的多个子训练集,结合欧氏距离计算子集中各点距其最近点的距离,以该距离为半径构建区域,将不属于任何区域的测试点作为全局异常;对非全局异常的测试点,找到其最近训练点及该训练点的最近训练点,将两点所在区域半径的比值作为该测试点异常的全局度量值;将测试点到其最近训练点区域边缘的最近距离与该区域半径的比值作为该点异常的局部度量值,结合两次度量值得到测试点的隔离分数,将多个子集中隔离分数的平均值作为异常分数。本发明实施例提供的技术方案,充分考虑了边缘样本的分布特征,能有效解决边缘样本邻近区域内局部异常检测问题。
【技术领域】
本发明涉及机器学习领域异常检测方法,尤其涉及一种基于边缘样本密度度量的最近邻异常检测方法。
【背景技术】
在利用机器学习方法解决二分类问题时,存在数据集类间分布极端不平衡的现象,即异常类样本的数量远远少于正常类样本数量或是没有异常类样本的现象。对于前者存在异常类样本的情况,目前常用技术主要分为基于数据的方法和基于算法的方法。基于数据的方法是指通过过采样或欠采样对数据集本身进行重构,使得不平衡的样本分布变得比较平衡。过采样方法是通过有放回抽样、生成异常类的相似样本等方法来增加异常类样本的个数,从而达到平衡数据集的目的,该算法会增加训练时间,提高计算的复杂度,易导致过拟合现象。欠采样方法是通过舍弃部分正常类样本,减少正常类样本的个数,从而降低数据集不平衡的程度,该算法会损失正常类样本的有用信息,并且具有一定的盲目性。基于算法的方法是指针对数据集类间分布极端不平衡问题,对有监督算法做适当修改或是使用无监督算法,对有监督算法进行修改常用方法包括引入代价敏感因子,对分类错误的少数类样本进行惩罚,如代价敏感决策树、代价敏感支持向量机等。或是使用一系列分类器进行学习,并将各个学习结果进行整合从而获得比单个分类器更好的学习效果,如AdaBoost、bagging等。但是这些算法没有从根本上改变数据集类间的不平衡性,无法真正解决样本数据极端分布条件下的分类问题。特别在没有异常类样本的情况下,以上基于数据的方法和基于有监督算法的方法不能有效解决该问题。因此,针对此类情况,会考虑使用无监督算法来解决这类问题,其中孤立森林算法在此类算法中表现较好。孤立森林算法每次用一个随机超平面来切割数据空间以及其切割后生成的每个子空间,直到每子空间里面只有一个数据点或者达到预设的终止条件为止。该算法可以只利用正常样本,较为有效的处理样本数据极端分布条件下的分类问题,但是,孤立森林算法无法很好的检测到局部异常,包括正负样本交叉的异常以及被正常类样本环绕的异常。针对这种情况,有学者提出了基于隔离的最近邻算法。该算法只在正常样本数据集中进行随机采样,通过建立隔离区域,计算测试点与离其最近的训练点之间的相对位置来判断该测试点的异常程度。但是,这种算法对于测试点异常的判断严重依赖于其最近邻训练点所构建的隔离区域的大小。在训练样本边缘较为稀疏的条件下,训练样本的隔离区域较大,可能会影响对测试点异常程度的判定,因此需要在边缘样本隔离区域内部对测试点异常程度做进一步度量。
【发明内容】
有鉴于此,本发明实施例提出了一种基于边缘样本密度度量的最近邻异常检测方法,以解决边缘样本邻近区域内局部异常检测问题。
本发明实施例提出了一种基于边缘样本密度度量的最近邻异常检测方法,包括:
多次随机采样获得正常样本的多个子训练集,结合欧氏距离计算子集中各点距其最近点的距离,以该距离为半径构建区域,将不属于任何区域的测试点作为全局异常;
对非全局异常的测试点,找到其最近训练点及该训练点的最近训练点,将两点所在区域半径的比值作为该测试点异常的全局度量值;
将测试点到其最近训练点区域边缘的最近距离与该区域半径的比值作为该点异常的局部度量值,结合两次度量值得到测试点的隔离分数,将多个子集中隔离分数的平均值作为异常分数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811351192.5/2.html,转载请声明来源钻瓜专利网。