[发明专利]一种异常数据的识别方法在审
申请号: | 201810691638.2 | 申请日: | 2018-06-28 |
公开(公告)号: | CN108875840A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 蔡延光;陈东;蔡颢 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 异常数据 统计量 检验 顺序统计量 显著性水平 判断标准 数学模型 标准化 参考 改进 | ||
本发明公开了一种异常数据的识别方法,是用改进的格拉布斯检验法对数据进行异常数据识别。具体步骤:(1)建立了数据数学模型;(2)定义了格拉布斯检验法的参考值xc;(3)设计了格拉布斯检验法标准化顺序统计量Gi;(4)确定了显著性水平α及临界值G(n,α);(5)通过计算所述统计量Gi,以统计量|Gi|≥G(n,α)作为数据是异常数据的判断标准。本发明提出的一种异常数据的识别方法以较高的速度和精度识别数据是否为异常数据,识别异常数据效果良好。
技术领域
本发明涉及数据处理领域,具体涉及一种异常数据的识别方法。
背景技术
异常数据(如健康异常数据,公交客流异常数据,普通的测量异常数据)是指数据集合中一些与全局中其他数据相比有很明显的不同之处的数据。异常数据识别可以采取以下几种方法:基于邻近度的异常数据识别方法、基于模型的异常数据识别方法、基于密度的异常数据识别方法等等。基于邻近度的异常数据识别方法的优点是适用于多维数据的异常识别,缺点是会耗费相当多的资源;基于模型的异常数据识别方法适用于低维度数据的异常识别,缺点是必须提前知道检测的数据集服从分布的情况;基于密度的异常数据识别方法的优点是适用于多维数据的异常识别,缺点是会耗费相当多的资源。
发明内容
为了克服上述现有技术的不足,本发明公开了一种异常数据的识别方法。利用本发明提出的异常数据的识别方法能以较高的速度和精度识别数据是否为异常数据,且具有良好的识别效果。
为了实现上述目的,本发明的技术方案为:
一种异常数据的识别方法,包括以下步骤:
S1:建立数据数学模型,数据符合正态分布:
X~N(μ,σ2) (1)
其中,X表示数据集,μ表示数据均值,σ2表示数据方差。
S2:计算格拉布斯检验法的参考值xc1,xc2,其中:
按式(2)计算格拉布斯检验法的参考值xc1:
其中β1和γ满足以下条件:
β1+γ=2 (3)
其中,β1为样本平均值的权值;为样本平均值;γ为样本众数的权值;z为样本众数。
按式(4)计算格拉布斯检验法的参考值xc2:
β2和满足以下条件:
其中,β2为样本平均值的权值;为样本平均值;为样本中位数的权值;m为样本中位数。
S3:按式(6)确定格拉布斯检验法标准化顺序统计量Gi:
η和ι满足以下条件:
η+ι=1 (7)
其中,xi为当前检测值;xc为参考值;n为样本总量;η为参考值xc1的权值;ι为参考值xc2的权值;xj为来自总体X的样本X1,X2,…Xn。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810691638.2/2.html,转载请声明来源钻瓜专利网。