[发明专利]一种基于两步聚类算法的异常数据诊断方法及系统在审
申请号: | 202110062362.3 | 申请日: | 2021-01-18 |
公开(公告)号: | CN112765142A | 公开(公告)日: | 2021-05-07 |
发明(设计)人: | 汪尚;闫秀媛 | 申请(专利权)人: | 北京易莱信科技有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06K9/62 |
代理公司: | 北京聿华联合知识产权代理有限公司 11611 | 代理人: | 张文娟 |
地址: | 101100 北京市通*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 两步聚类 算法 异常 数据 诊断 方法 系统 | ||
本发明提供了一种基于两步聚类算法的异常数据诊断方法及系统,该方法包括:用于对具备诊断需求的数据进行自定义类别划分,确定诊断类的诊断类定义步骤,用于基于确定的诊断类按照设定策略应用两步聚类算法进行聚类处理的数据聚类步骤和用于对聚类处理后的数据进行分析和计算,确定各数据的异常指数并发现目标异常数据的异常诊断步骤。采用上述方案,以两步聚类算法为基础,基于聚类形成的分类和分类对应的数据距离进行异常数据的诊断,能够克服现有诊断技术存在的应用数据类型和数据场景局限,且能够适用于所有具备诊断需求的用户,实用性更佳,为各用户提供更稳定更精确的数据诊断结果,有利于为数据分析和处理工作提供可靠的资源基础。
技术领域
本发明涉及数据清洗及处理技术领域,尤其涉及一种基于两步聚类算法的异常数据诊断方法及系统。
背景技术
数据清理是数据分析的一个重要步骤,而异常数据的识别和处理是有效进行数据清理和数据分析的基石。现有的研究人员多基于以下类型的异常数据识别方法进行异常数据的诊断:
1、基于数据特征进行识别的方法,常用的该类型识别方法包括箱型图分析法、标准化法和距离识别法,其中,箱型图分析法通过分析识别超过上下四分位点以外一定范围的数据,将满足的数据定义为异常数据。标准化法是通过计算各数据的正态标准化值,将正态标准化值超过设定值的数据定义为异常数据。应用距离识别法进行异常数据诊断时,是基于设置的基准点开展针对各个数据对应样本点的欧氏距离或马氏距离计算,将计算结果满足设定条件的数据定义为异常数据。
2.模型识别法;这类方法属于简单有监督识别,常见的模型识别方法包括贝叶斯识别法,决策树识别法,线性回归识别法等。应用这类方法实现异常数据诊断时,通过根据数据所对应的特征,去拟合获取一个尽可能符合要求的模型,后续直接应用拟合得到模型的预测功能对数据的性能进行判断,也就是利用能够代表大多数数据判断结果的模型去判断实际数据是否异常。以线性回归识别为例,其首先通过从大量数据中挖掘自变量和因变量的关系,建立两者之间的数据预测模型以代表所有样本数据中的共同趋势;然后将预测模型应用到待诊断的数据中,选取实际值与预测值差距比较大的数据,定义为异常数据。
上述两种类型的异常数据识别方法中,基于数据特征识别的方法通常只能考虑特定的数据特征因素,必然导致数据诊断的结果精确度不足,实际应用时可能会导致错失重要数据,无法满足数据诊断的实际要求,且基于数据特征识别的方法一般只适用于数值型变量。相对于根据数据特征进行异常识别的方法,模型识别虽然可以同时考虑多个影响因素,但是其应用领域存在局限性,通常适用于分类型数据(例如男/女)和数值型数据(例如身高/体重)两种数据,且使用模型识别方法进行数据诊断时存在以下:
1).预测模型的选择并不是一个简单的是/非两个选项,很多时候根据用户模型算法的选择,参数的选择而不同,而评估指标通常也不止一个,因此不同的用户可能会选择不同的预测模型,异常数据诊断结果对预测模型的选择依赖性过高,这就导致对用户的数据处理和分析专业能力要求比较高,适用性不佳;
2).预测模型的可靠性无法得到保障,即各个类型数据对应的预测模型的质量都需要依靠海量的数据进行运算和拟合来保障,数据处理量大,运算过程繁琐,否则模型并不能真正代表数据的整体趋势;
3).对于非监督类的数据诊断场景,该类方法则难以有效应用,通常这类方法应用于同时存在自变量(原因)和因变量(结果)两类参量的数据,如果针对无监督的场景或者原始数据不存在明显有效的趋势性特使时,则无法建立预测模型,由此可见,模型识别类的方法稳定性和一致性不佳,大大的限制了其对于不同数据场景的实用性。
发明内容
为解决上述问题,本发明提供了一种基于两步聚类算法的异常数据诊断方法,在一个实施例中,所述方法包括:
诊断类定义步骤、执行诊断操作前,对具备诊断需求的数据进行自定义类别划分,确定用于作为聚类辅助设置信息的诊断类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易莱信科技有限公司,未经北京易莱信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110062362.3/2.html,转载请声明来源钻瓜专利网。