[发明专利]数据异常分析的方法及系统在审
申请号: | 201810798436.8 | 申请日: | 2018-07-19 |
公开(公告)号: | CN108984381A | 公开(公告)日: | 2018-12-11 |
发明(设计)人: | 付伶伶 | 申请(专利权)人: | 武汉新芯集成电路制造有限公司 |
主分类号: | G06F11/34 | 分类号: | G06F11/34 |
代理公司: | 上海思微知识产权代理事务所(普通合伙) 31237 | 代理人: | 屈蘅 |
地址: | 430205 湖北*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 组数据 正态分布 机台 正态分布函数 数据分布 数据异常 非正态分布 核密度估计 异常值检测 机台数据 数据分析 图基 分析 验证 填补 检验 | ||
本发明提供了一种数据异常分析的方法及系统,首先验证一组数据是否满足正态分布,若满足正态分布,则获取该组数据的正态分布函数及其上限值及下限值;若不满足正态分布,则通过核密度估计方法得到该组数据的数据分布函数,再通过图基检验计算得到该组数据的上限值及下限值,并判断该组数据中的数据是否在正态分布函数或数据分布函数的上限值及下限值之外,在所述上限值及下限值之外的数据即为异常值,填补了在一组机台数据在呈现非正态分布时数据分析的空白,提高了对机台的异常值检测的精度,降低了出机台现异常情况的误差。
技术领域
本发明涉及数据分析技术领域,尤其涉及一种数据异常分析的方法及系统。
背景技术
目前,对于机台数据进行异常分析时,通常会默认为机台数据是呈现正态分布(Normal Distribution)的,然后采用3σ原则(3倍标准差原则)分析异常数据。但是若一组数据的数据量比较少(小于30个),这组机台数据是不满足正态分布的,或者,即使该组数据的数据量比较大,但是也不满足正态分布,若仍然采用3σ原则分析异常数据,则误差会非常大,对机台的异常值检测的精度也不高。
发明内容
本发明的目的在于提供一种数据异常分析的方法及系统,以解决现有的数据异常分析方法误差大、异常值检测的精度低等问题
为了达到上述目的,本发明提供了一种数据异常分析的方法,所述数据异常分析的方法包括:
S1:提供一组数据,验证该组数据是否满足正态分布,若该组数据满足正态分布,执行步骤S2,若该组数据不满足正态分布,执行步骤S3;
S2:获取该组数据的正态分布函数,并求出所述正态分布函数的上限值及下限值,在所述正态分布函数的上限值及下限值之外的数据为该组数据的异常值;
S3:通过核密度估计方法得到该组数据的数据分布函数,并求出所述数据分布函数的上限值及下限值,在所述数据分布函数的上限值及下限值之外的数据为该组数据的异常值。
可选的,采用QQ图检验法对该组数据进行正态化检验,以验证该组数据是否满足正态分布。
可选的,获取该组数据的期望值μ和标准差σ,通过所述期望值μ和标准差σ得到该组数据的正态分布函数N(μ,σ2)。
可选的,所述正态分布函数N(μ,σ2)的上限值为μ+3σ,所述正态分布函数N(μ,σ2)的下限值为μ-3σ。
可选的,采用箱形图分析法求出所述数据分布函数的上限值及下限值。
可选的,求出所述数据分布函数的上限值及下限值的步骤包括:
将该组数据由大到小进行排序,并通过将排序后的数据等分成4份,得到在排序后的数据的25%位置处的下四分位数Q1及75%位置处的上四分位数Q3;
所述数据分布函数的上限值为Q3+K*(Q3-Q1),所述数据分布函数的下限值为Q1-K*(Q3-Q1),其中,K为异常系数且小于等于3。
可选的,该组数据直接从一机台中抓取。
本发明还提供了一种数据异常分析的系统,所述数据异常分析的系统包括检测单元、数据处理单元及判断单元;
所述检测单元用于验证一组数据是否满足正态分布,该组数据满足正态分布时,所述数据处理单元求出该组数据的正态分布函数及所述正态分布函数的上限值及下限值;该组数据不满足正态分布时,所述数据处理单元通过核密度估计方法得到该组数据的数据分布函数及所述数据分布函数的上限值及下限值;
所述判断单元判断该组数据中的数据是否在所述正态分布函数或所述数据分布函数的上限值及下限值之外,在所述正态分布函数或所述数据分布函数的上限值及下限值之外的数据为该组数据的异常值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉新芯集成电路制造有限公司,未经武汉新芯集成电路制造有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810798436.8/2.html,转载请声明来源钻瓜专利网。