[发明专利]一种异常数据的识别方法在审

申请号：	201810691638.2	申请日：	2018-06-28
公开（公告）号：	CN108875840A	公开（公告）日：	2018-11-23
发明（设计）人：	蔡延光;陈东;蔡颢	申请（专利权）人：	广东工业大学
主分类号：	G06K9/62	分类号：	G06K9/62
代理公司：	广州粤高专利商标代理有限公司 44102	代理人：	林丽明
地址：	510006 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	异常数据统计量检验顺序统计量显著性水平判断标准数学模型标准化参考改进
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种异常数据的识别方法，是用改进的格拉布斯检验法对数据进行异常数据识别。具体步骤：(1)建立了数据数学模型；(2)定义了格拉布斯检验法的参考值x_c；(3)设计了格拉布斯检验法标准化顺序统计量G_i；(4)确定了显著性水平α及临界值G(n,α)；(5)通过计算所述统计量G_i，以统计量|G_i|≥G(n,α)作为数据是异常数据的判断标准。本发明提出的一种异常数据的识别方法以较高的速度和精度识别数据是否为异常数据，识别异常数据效果良好。

技术领域

本发明涉及数据处理领域，具体涉及一种异常数据的识别方法。

背景技术

异常数据(如健康异常数据，公交客流异常数据，普通的测量异常数据)是指数据集合中一些与全局中其他数据相比有很明显的不同之处的数据。异常数据识别可以采取以下几种方法：基于邻近度的异常数据识别方法、基于模型的异常数据识别方法、基于密度的异常数据识别方法等等。基于邻近度的异常数据识别方法的优点是适用于多维数据的异常识别，缺点是会耗费相当多的资源；基于模型的异常数据识别方法适用于低维度数据的异常识别，缺点是必须提前知道检测的数据集服从分布的情况；基于密度的异常数据识别方法的优点是适用于多维数据的异常识别，缺点是会耗费相当多的资源。

发明内容

为了克服上述现有技术的不足，本发明公开了一种异常数据的识别方法。利用本发明提出的异常数据的识别方法能以较高的速度和精度识别数据是否为异常数据，且具有良好的识别效果。

为了实现上述目的，本发明的技术方案为：

一种异常数据的识别方法，包括以下步骤：

S1：建立数据数学模型，数据符合正态分布：

X～N(μ,σ²) (1)

其中，X表示数据集，μ表示数据均值，σ²表示数据方差。

S2：计算格拉布斯检验法的参考值x_c1，x_c2，其中：

按式(2)计算格拉布斯检验法的参考值x_c1：

其中β₁和γ满足以下条件：

β₁+γ＝2 (3)

其中，β₁为样本平均值的权值；为样本平均值；γ为样本众数的权值；z为样本众数。