[发明专利]异常数据的检测方法及其系统在审

申请号：	201910015525.5	申请日：	2019-01-08
公开（公告）号：	CN110033014A	公开（公告）日：	2019-07-19
发明（设计）人：	林建滨	申请（专利权）人：	阿里巴巴集团控股有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06Q40/08
代理公司：	北京国昊天诚知识产权代理有限公司 11315	代理人：	许振新;朱文杰
地址：	英属开曼群岛大开***	国省代码：	开曼群岛;KY
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	维数异常数据损失函数自动编码编码数据使用解码编码数据解码数据数据计算有效地检测标注判定申请
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请公开了一种异常数据的检测方法及其系统，无需标注数据，亦不用对数据的分布做事先假设，就可以有效地识别异常数据。该方法包括：将第一维数的输入数据使用自动编码机编码为第二维数的编码数据，再将该编码数据使用自动编码机解码为第一维数的解码数据，其中第一维数大于第二维数；根据输入数据和解码数据计算损失函数的值；如果损失函数的值大于约定阈值，则判定输入数据为异常数据。

技术领域

本申请涉及计算机技术领域，特别涉及异常数据的检测技术。

背景技术

异常点一般指的是某个显著和其他点不同的数据点，比如图1中的点A.异常点检测在很多领域都有着重要的应用，比如在保险反套利业务中，异常检测可以用来发现用户最近申请的理赔是否和大盘均值严重背离等。又如，在工业制造过程中，异常检测可以用来控制产品的质量。

目前，异常检测方法主要有两种：

1)在数据中标注正常数据和异常数据，采用有监督算法学习异常检测模型。这个方法的问题在于需要大量标注数据训练模型。

2)假设数据符合某个分布，以高斯分布为例，首先计算正常数据的均值和方差；然后计算待检测数据离正常分布的距离(即有几个标准差)。该方法的问题在于需要先假设数据符合某一个分布，然而很多数据的分布事先不可知。

发明内容

本申请的目的在于提供一种异常数据的检测方法及其系统，无需对大量数据打标签，也无需知道数据的分布，就可以有效地识别异常数据。

为了解决上述问题，本申请公开了一种异常数据的检测方法，包括：

将第一维数的输入数据使用自动编码机编码为第二维数的编码数据，再将该编码数据使用该自动编码机解码为该第一维数的解码数据，其中该第一维数大于第二维数；

根据该输入数据和该解码数据计算损失函数的值；