[发明专利]一种基于生成式对抗主动学习的离群点检测方法在审

申请号：	202210641407.7	申请日：	2022-06-08
公开（公告）号：	CN115146708A	公开（公告）日：	2022-10-04
发明（设计）人：	穆罕默德·贾瓦德·巴;许增辉;张吉;余婷;张阳;姜婷	申请（专利权）人：	之江实验室
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州浙科专利事务所(普通合伙) 33213	代理人：	陈洁
地址：	311100 浙江省杭***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗主动学习离群检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明属于数据挖掘异常检测技术领域，公开了一种基于生成式对抗主动学习的离群点检测方法，该方法步骤为：S1、输入数据；S2、训练生成模型并生成样本；S3、训练主动学习分类模型并筛选生成样本；S4、训练判别模型；S5、执行异常检测操作。本发明针对异常检测中常见的数据样本标签数量有限和正负样本不均匀分布等问题，采用基于生成式对抗主动学习的技术方法，生成多样的、信息丰富的、有代表性的样本，实现更准确的离群点检测。

技术领域

本发明属于数据挖掘技术领域，尤其涉及一种基于生成式对抗主动学习的离群点检测方法。

背景技术

异常检测又称离群点检测，是数据挖掘中重要的任务，旨在识别出偏离预期模式的对象，其在电商欺诈检测和网络安全检测中有广泛的医用。传统的离群点检测方法是监督式或非监督式的。非监督式方法不需要数据事先的标签，成本较低，但是检测准确率低；监督式方法利用标签提高检测性能，但由于其需要大量的标签数据，造成巨大的成本。同时，标注数据也存在正负样本分布不均衡等问题，同样会影响训练模型的效果。

总的来说，数据标注样本少，且存在样本类别不均衡的问题，是当前离群点检测领域面临的主要问题。

发明内容

本发明目的在于提供一种基于生成式对抗主动学习的离群点检测方法,以解决上述的技术问题。

为解决上述技术问题，本发明的一种基于生成式对抗主动学习的离群点检测方法的具体技术方案如下：

一种基于生成式对抗主动学习的离群点检测方法，包括如下步骤：

S1、输入数据；

S2、训练生成模型并生成样本，所述生成模型用于产生更多样本；

S3、训练主动学习分类模型并筛选生成样本；包括训练支持向量机、支持向量机标注数据、Dir值筛选；

S4、训练判别模型；所述判别模型是一个分类模型，用于判断从S2中输入的数据属于真实数据还是经S1和S2生成的数据；

S5、训练异常检测模型；所述异常检测模型是一个有监督的全连接神经网络模型，使用神经网络的前向传播，计算出每个点的离群度；

S6、执行异常检测操作：步骤S2、S3、S4、S5经多次迭代计算之后得到训练好的整体异常检测模型，最后使用S5中的训练好的异常检测模型进行异常检测。

进一步地，所述步骤S2的生成模型由k个子生成模型组成，k值表示输入数据经判别模型判断之后的类别数量，同时S1的输入数据也根据其经判别模型判断之后所属类别被分为k份子数据集，k值由人工根据不同数据包含类别数设定。