[发明专利]一种基于生成式对抗主动学习的离群点检测方法在审
申请号: | 202210641407.7 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115146708A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 穆罕默德·贾瓦德·巴;许增辉;张吉;余婷;张阳;姜婷 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 陈洁 |
地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 主动 学习 离群 检测 方法 | ||
本发明属于数据挖掘异常检测技术领域,公开了一种基于生成式对抗主动学习的离群点检测方法,该方法步骤为:S1、输入数据;S2、训练生成模型并生成样本;S3、训练主动学习分类模型并筛选生成样本;S4、训练判别模型;S5、执行异常检测操作。本发明针对异常检测中常见的数据样本标签数量有限和正负样本不均匀分布等问题,采用基于生成式对抗主动学习的技术方法,生成多样的、信息丰富的、有代表性的样本,实现更准确的离群点检测。
技术领域
本发明属于数据挖掘技术领域,尤其涉及一种基于生成式对抗主动学习的离群点检测方法。
背景技术
异常检测又称离群点检测,是数据挖掘中重要的任务,旨在识别出偏离预期模式的对象,其在电商欺诈检测和网络安全检测中有广泛的医用。传统的离群点检测方法是监督式或非监督式的。非监督式方法不需要数据事先的标签,成本较低,但是检测准确率低;监督式方法利用标签提高检测性能,但由于其需要大量的标签数据,造成巨大的成本。同时,标注数据也存在正负样本分布不均衡等问题,同样会影响训练模型的效果。
总的来说,数据标注样本少,且存在样本类别不均衡的问题,是当前离群点检测领域面临的主要问题。
发明内容
本发明目的在于提供一种基于生成式对抗主动学习的离群点检测方法,以解决上述的技术问题。
为解决上述技术问题,本发明的一种基于生成式对抗主动学习的离群点检测方法的具体技术方案如下:
一种基于生成式对抗主动学习的离群点检测方法,包括如下步骤:
S1、输入数据;
S2、训练生成模型并生成样本,所述生成模型用于产生更多样本;
S3、训练主动学习分类模型并筛选生成样本;包括训练支持向量机、支持向量机标注数据、Dir值筛选;
S4、训练判别模型;所述判别模型是一个分类模型,用于判断从S2中输入的数据属于真实数据还是经S1和S2生成的数据;
S5、训练异常检测模型;所述异常检测模型是一个有监督的全连接神经网络模型,使用神经网络的前向传播,计算出每个点的离群度;
S6、执行异常检测操作:步骤S2、S3、S4、S5经多次迭代计算之后得到训练好的整体异常检测模型,最后使用S5中的训练好的异常检测模型进行异常检测。
进一步地,所述步骤S2的生成模型由k个子生成模型组成,k值表示输入数据经判别模型判断之后的类别数量,同时S1的输入数据也根据其经判别模型判断之后所属类别被分为k份子数据集,k值由人工根据不同数据包含类别数设定。
进一步地,所述步骤S2的生成模型的子生成模型使用如下公式进行训练优化,使生成模型产生的新样本难以被判别模型识别:
其中,G表示生成模型计算,D表示判别模型计算,mi表示第i个子生成模型生成的潜在离群点数量,表示第i个子生成模型使用隐向量z和已有标签y生成的样本,Υi为第i份输入子数据集中经判别模型D(xi)后的最小值,作为表征统计参数。
进一步地,所述步骤S2的生成模型训练的损失函数为:
其中,表示生成样本的条件概率分布,R表示真实输入数据集中的正样本,表示生成样本的条件概率分布,yi表示真实输入数据集的标签值,E表示数学期望。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210641407.7/2.html,转载请声明来源钻瓜专利网。