[发明专利]离群点检测方法和系统在审
申请号: | 201710497183.6 | 申请日: | 2017-06-26 |
公开(公告)号: | CN107315647A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 徐骄 | 申请(专利权)人: | 广州视源电子科技股份有限公司 |
主分类号: | G06F11/00 | 分类号: | G06F11/00;G06K9/62 |
代理公司: | 广州华进联合专利商标代理有限公司44224 | 代理人: | 刘艳丽 |
地址: | 510530 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离群 检测 方法 系统 | ||
技术领域
本发明涉及离群点检测技术领域,特别是涉及离群点检测方法和离群点检测系统。
背景技术
离群点检测,亦称“异常点检测”,是从历史数据中找出其行为很不同于预期对象的一个检测过程,而这些对象被称为离群点或者异常点。随着科技的发展,离群点检测的应用前景越来越广泛。例如,在目前的数据科学领域中,基本上都是以数据流为导向来进行的。从数据源的获取到数据存储,然后到数据预处理,再到数据建模、数据分析与数据挖掘,最后再到数据变现。其中数据预处理的质量及准确性对于其后续的每一个步骤起着极其重要的作用,若数据存在离群点,则会直接导致数据挖掘算法过拟合,无法直接用于业务。又例如,在某些业务场景中,也会存在异常或离群对象显著的不同于其他绝大部分对象,这种情况下对数据进行异常挖掘就显得尤为重要,例如,在信用卡欺诈检测就是一个极为典型的例子,其主要目的是检测出异常对象的购买模式或行为。
传统技术中,一般通过在EDA(Exploratory Data Analysis,探索性数据分析)阶段使用图形化工具画出散点图或者盒图等,比较直观且可以从视觉上检测出基于距离的离群点。但是通过作图的这种方式,当数据量比较大的时候对全量数据进行可视化会带来一定的困难。
发明内容
基于此,有必要针对上述在数据量较大时无法检测离群点的问题,提供一种离群点检测方法和系统,不受限于数据量的限制,即使在数据量较大时,也能准确检测出离群点。
一种离群点检测方法,包括步骤:
获取待检测的样本空间,其中所述样本空间包括多个样本点,每个样本点包括若干个维度;
从所述样本空间选取若干个样本点作为对应簇的中心点;
计算所述样本空间中未被选取的每个样本点与各个中心点之间的距离权重,其中所述距离权重为样本点和中心点的数值相同的维度数与总维度数之比;
根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离;
根据所述距离确定未被选取的每个样本点所属的簇;
将不属于任何簇的样本点判定为离群点。
上述离群点检测方法,在筛选样本空间中的离群点时,先计算出每个样本点与各个中心点之间的距离权重,然后根据距离权重对样本点和中心点的距离进行加权,根据加权后的距离检测出样本空间中的离群点,由于直接在样本空间中筛选出离群点,无需作图,因此不受限于数据量的大小,即使在数据量较大时,也可以准确检测出离群点。
在一个实施例中,将不属于任何簇的样本点判定为离群点之后,还包括步骤:计算每个簇的平均标准差,根据所述平均标准差获得每个簇的阈值;获取每个簇中与对应中心点之间的距离大于阈值的样本点,将获取的样本点作为候选离群点;对所有的候选离群点进行筛选,获得补充的离群点。对直接聚类的结果采用标准差的距离的策略进行了离群点的补充,使得对聚类的结果有较好的修正,以防止在聚类过程中离最终中心点最远的那些其实是离群点的样本点被错分到簇中,进一步提高了离群点检测的准确性。
在一个实施例中,对所有的候选离群点进行筛选,获得补充的离群点包括:将所有的候选离群点按照与中心点距离的大小进行排序,从距离最大的候选离群点开始选择预设个数的候选离群点作为补充的离群点。
在一个实施例中,计算每个簇的平均标准差包括:根据簇所包含的样本点的总数量、簇所包含的每个样本点在每个维度的数值以及簇所包含的所有样本点在每个维度的均值,获得每个簇在每个维度的标准差;计算每个簇所有维度的标准差的平均值,获得每个簇的平均标准差。
在一个实施例中,根据所述距离权重计算未被选取的每个样本点与各个中心点之间的距离包括:根据样本点与中心点之间的距离权重的倒数、样本点的维度的数值以及中心点的维度的数值,计算未被选取的每个样本点与各个中心点之间的马氏距离。距离权重为一个小数,越大表示两个样本点越接近,所以在马氏距离中作为距离权重的因子时使用其倒数,另外,传统技术中的作图方式不能体现多变量之间的关系,本发明使用马氏距离不受量纲的影响,且还考虑了变量之间的相关性,使聚类的结果更贴合实际聚类,能获得比较良好的聚类效果,进而更为准确检测出离群点。
在一个实施例中,根据所述距离确定未被选取的每个样本点所属的簇之后,将不属于任何簇的样本点判定为离群点之前,还包括步骤:判断得到的簇是否满足设定的收敛条件;若得到的簇不满足设定的收敛条件,重新选取每个簇的中心点,根据重新选取的各个中心点重新确定未被选取的每个样本点所属的簇。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州视源电子科技股份有限公司,未经广州视源电子科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710497183.6/2.html,转载请声明来源钻瓜专利网。