[发明专利]一种基于机器学习的海量数据中检测异常值的方法有效

申请号：	201710913196.7	申请日：	2017-09-29
公开（公告）号：	CN107844798B	公开（公告）日：	2021-05-14
发明（设计）人：	裘炜毅;李明敏	申请（专利权）人：	上海元卓信息科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06N20/00;G06N20/20;G06N5/00;G06N7/00;G06N3/08
代理公司：	上海申汇专利代理有限公司 31001	代理人：	翁若莹;柏子雵
地址：	200120 上海市浦东新区中国(上海)***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于机器学习海量数据检测异常方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于机器学习的海量数据中检测异常值的方法。本发明基于数据集，建立一个偏向欠拟合的机器学习模型，让模型学习数据的普遍特征，再利用训练得到的机器学习模型对数据进行预测，比较预测值和真实值的偏差。根据训练出来的数据偏差，选择一个可靠的阈值，将偏差超过阈值的数据标记为异常，从而为后续的数据分析、数据挖掘提供更高质量的数据。

技术领域

本发明涉及一种基于机器学习的海量数据中检测异常值的方法，用于海量数据中的异常值检测，可以清洗脏数据，为后续的回归分析任务提供更高质量的数据，提升分析精度。

背景技术

在处理数据过程中，时常发现部分数据值偏离预期或大量统计数据结果的情况。通常，这部分数据被定义为异常值，即：样本数据集中明显偏离所属样本中其余观测值的数值，也可以称为异常数据，离群值。

随着数据总量的不断增加，异常值的出现不可避免。对于人工采集的数据，采集人员的疲惫、马虎等有意、无意的原因都有可能导致数据采集错误；对于机器采集的数据，机器故障、操作失误等也会造成异常数据的产生。这些异常数据隐藏在海量数据中往往难以发现，但是，这些异常数据会给整个数据分析、数据挖掘过程带来无法预估的影响，通常会降低数据分析的精度和性能。

机器学习是指计算机利用已有的数据(经验)得出某种模型，并利用此模型预测未来的过程。机器学习分为深度学习、增强学习、迁移学习、多任务学习、规则学习等。根据输入数据是否有标签，机器学习又分为有监督学习和无监督学习。深度学习是目前机器学习方法中最为热门的一个领域，它是一个端到端的学习方法。增强学习方法会不断地跟环境做自主的互动，在互动的过程中用长远的收益来指导当下该做什么决策。机器学习相关方法经过多年发展已经在海量数据处理任务中发挥了重要作用。机器学习能够有效的学习数据集中的普遍特征，这让基于机器学习的海量数据中异常值检测成为可能。

发明内容

本发明的目的是：利用机器学习技术检测海量数据中的异常值。

为了达到上述目的，本发明的技术方案是提供了一种基于机器学习的海量数据中检测异常值的方法，其特征在于，包括以下步骤：

步骤1、获取数据集，确定数据集中的数据类型，根据不同的数据类型和回归分析任务的特性，使用基于加法模型的机器学习器选择模型选择合适的机器学习器；

步骤2、将整个数据集输入机器学习器中进行简单训练，使机器学习器尽可能多的学习数据集中普遍特征的同时，尽可能少的学习数据个案中的非普遍特征，其中：简单训练包括以下步骤：

步骤2.1、在输入的数据集上构建特征，随后将构建完成的特征规范化；

步骤2.2、设定机器学习器的参数；

步骤2.3、将特征输入到机器学习器，训练机器学习器至偏欠拟合的状态以减少对非普遍特征的学习，得到一个训练好的弱学习器；

步骤3、使用训练好的弱学习器对数据集中的所有个案进行预测，得到每个个案的预测值；

步骤4、将所有个案的预测值与真实值进行比较，设置容差大小，如果个案的真实值与预测值的差异大于容差，则认定为异常值，如果个案的真实值与预测值的差异小于容差，则认定为正常值；

步骤5、输出去除异常值之后的数据集。

优选地，在所述步骤2.1中采用标准化方法将特征规范化，将原始数据集归一化为均值为0、方差为1的数据集。