[发明专利]异常数据检测方法与装置在审
申请号: | 201910180402.7 | 申请日: | 2019-03-11 |
公开(公告)号: | CN109948681A | 公开(公告)日: | 2019-06-28 |
发明(设计)人: | 梁琛 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 林祥 |
地址: | 英属开曼群岛大开*** | 国省代码: | 开曼群岛;KY |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据样本 正常样本 迭代结束条件 迭代过程 预测模型 异常数据 去除 异常数据检测 方法和装置 迭代执行 预测数据 样本集 检测 样本 预测 | ||
1.一种用于检测异常数据的方法,包括:
针对待检测的数据样本集,迭代执行下述过程,直到满足迭代结束条件:
使用当前数据样本集来训练当前变分自编码神经网络模型;
利用所述经过训练的当前变分自编码神经网络模型处理所述当前数据样本集,以得到与当前迭代过程对应的正常样本集;
在当前迭代过程未满足迭代结束条件时,从所述当前数据样本集中去除所述正常样本集,以得到用于下一迭代过程的当前数据样本集;
在当前迭代过程满足迭代结束条件时,将从所述当前数据样本集中去除所述正常样本集后得到的数据样本,作为所述待检测的数据样本集中的异常数据样本。
2.如权利要求1的方法,其中,所述使用当前数据样本集来训练当前变分自编码神经网络模型包括:
将所述当前数据样本集划分成训练样本集与验证样本集;
利用所述训练样本集训练所述当前变分自编码神经网络模型,并利用所述验证样本集对经过训练的所述当前变分自编码神经网络模型进行验证。
3.如权利要求1或2的方法,其中,利用所述经过训练的变分自编码神经网络模型处理所述当前数据样本集,以得到与当前迭代过程对应的正常样本集包括:
将所述当前数据样本集输入所述变分自编码神经网络模型以产生所述当前数据样本集中每个输入样本的预测输出;
计算每个输入样本与对应的预测输出之间的距离;
将所述当前数据样本集中距离小于或等于第一阈值的输入样本确定为所述正常样本集。
4.如权利要求1-3之一的方法,其中所述迭代结束条件包括:
所述当前数据样本集中的样本数量小于第二阈值;或者
所述迭代过程的执行次数达到第三阈值。
5.一种用于检测异常数据的装置,包括:
样本收集模块,用于接收待检测的数据样本集;
模型训练模块,配置为使用当前数据样本集来训练当前变分自编码神经网络模型;
样本预测模块,配置为利用所述经过训练的变分自编码神经网络模型处理所述当前数据样本集,以得到与当前迭代过程对应的正常样本集;
仲裁模块,配置为在当前迭代过程未满足迭代结束条件时,从所述当前数据样本集中去除所述正常样本集,以得到用于下一迭代过程的当前数据样本集;在当前迭代过程满足迭代结束条件时,将从所述当前数据样本集中去除所述正常样本集后得到的数据样本,作为所述待检测的数据样本集中的异常数据样本。
6.如权利要求5的装置,其中,所述模型训练模块进一步配置为:
将所述当前数据样本集划分成训练样本集与验证样本集;
利用所述训练样本集训练所述当前变分自编码神经网络模型,并利用所述验证样本集对经过训练的所述变分自编码神经网络模型进行验证。
7.如权利要求6的装置,其中所述样本预测模块进一步配置为:
将所述当前数据样本集输入所述变分自编码神经网络模型以产生所述当前数据样本集中每个输入样本的预测输出;
计算每个输入样本与对应的预测输出之间的距离;
将所述当前数据样本集中距离小于或等于第一阈值的输入样本确定为所述正常样本集。
8.如权利要5-7之一的装置,其中所述迭代结束条件包括:
所述当前数据样本集中的样本数量小于第二阈值;或者
所述迭代过程的执行次数达到第三阈值。
9.一种具有指令的机器可读介质,所述指令在被一个或多个机器执行时,使所述机器执行根据权利要求1-4中的任一项所述的方法。
10.一种用于检测异常数据的装置,包括:
存储器,其上存储有指令;
处理器,所述处理器可配置为执行所述指令以实现根据权利要求1-4中的任一项所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910180402.7/1.html,转载请声明来源钻瓜专利网。