[发明专利]异常数据的检测方法及其系统在审
申请号: | 201910015525.5 | 申请日: | 2019-01-08 |
公开(公告)号: | CN110033014A | 公开(公告)日: | 2019-07-19 |
发明(设计)人: | 林建滨 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q40/08 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 许振新;朱文杰 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 维数 异常数据 损失函数 自动编码 编码数据使用 解码 编码数据 解码数据 数据计算 有效地 检测 标注 判定 申请 | ||
本申请公开了一种异常数据的检测方法及其系统,无需标注数据,亦不用对数据的分布做事先假设,就可以有效地识别异常数据。该方法包括:将第一维数的输入数据使用自动编码机编码为第二维数的编码数据,再将该编码数据使用自动编码机解码为第一维数的解码数据,其中第一维数大于第二维数;根据输入数据和解码数据计算损失函数的值;如果损失函数的值大于约定阈值,则判定输入数据为异常数据。
技术领域
本申请涉及计算机技术领域,特别涉及异常数据的检测技术。
背景技术
异常点一般指的是某个显著和其他点不同的数据点,比如图1中的点A.异常点检测在很多领域都有着重要的应用,比如在保险反套利业务中,异常检测可以用来发现用户最近申请的理赔是否和大盘均值严重背离等。又如,在工业制造过程中,异常检测可以用来控制产品的质量。
目前,异常检测方法主要有两种:
1)在数据中标注正常数据和异常数据,采用有监督算法学习异常检测模型。这个方法的问题在于需要大量标注数据训练模型。
2)假设数据符合某个分布,以高斯分布为例,首先计算正常数据的均值和方差;然后计算待检测数据离正常分布的距离(即有几个标准差)。该方法的问题在于需要先假设数据符合某一个分布,然而很多数据的分布事先不可知。
发明内容
本申请的目的在于提供一种异常数据的检测方法及其系统,无需对大量数据打标签,也无需知道数据的分布,就可以有效地识别异常数据。
为了解决上述问题,本申请公开了一种异常数据的检测方法,包括:
将第一维数的输入数据使用自动编码机编码为第二维数的编码数据,再将该编码数据使用该自动编码机解码为该第一维数的解码数据,其中该第一维数大于第二维数;
根据该输入数据和该解码数据计算损失函数的值;
如果该损失函数的值大于约定阈值,则判定该输入数据为异常数据。
在一个优选例中,该损失函数是输入数据与解码数据差值的平方。
在一个优选例中,如果该损失函数的值小于约定阈值,则判定该输入数据为正常数据。
在一个优选例中,该输入数据是保险理赔数据,该异常数据的检测方法用于检测保险理赔是否异常。
在一个优选例中,该自动编码机的训练方法包括:
获取训练数据集合,其中包括多个该第一维数的训练数据;
将该训练数据集合中的每一个训练数据分别作为输入数据,将每一个训练数据分别使用该自动编码机编码为该第二维数的编码数据,再将该编码数据使用该自动编码机解码为该第一维数的解码数据;
对该自动编码机的参数进行调整,使得对于该训练数据集合中的所有训练数据和对应的解码数据,损失函数的值最小;其中,该损失函数是训练数据与对应的解码数据差值的平方。
本申请还公开了一种异常数据的检测系统,包括:
自动编码机,用于将第一维数的输入数据编码为第二维数的编码数据,再将该编码数据解码为该第一维数的解码数据,其中该第一维数大于第二维数;
损失函数计算模块,用于根据该输入数据和该解码数据计算损失函数的值;
异常判定模块,用于在该损失函数的值大于约定阈值时,判定该输入数据为异常数据。
在一个优选例中,该损失函数是输入数据与解码数据差值的平方。
在一个优选例中,该异常判定模块还用于,在该损失函数的值小于约定阈值时,判定该输入数据为正常数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910015525.5/2.html,转载请声明来源钻瓜专利网。