[发明专利]一种基于生成式对抗主动学习的离群点检测方法在审
申请号: | 202210641407.7 | 申请日: | 2022-06-08 |
公开(公告)号: | CN115146708A | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 穆罕默德·贾瓦德·巴;许增辉;张吉;余婷;张阳;姜婷 | 申请(专利权)人: | 之江实验室 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州浙科专利事务所(普通合伙) 33213 | 代理人: | 陈洁 |
地址: | 311100 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 主动 学习 离群 检测 方法 | ||
1.一种基于生成式对抗主动学习的离群点检测方法,其特征在于,包括如下步骤:
S1、输入数据;
S2、训练生成模型并生成样本,所述生成模型用于产生更多样本;
S3、训练主动学习分类模型并筛选生成样本;包括训练支持向量机、支持向量机标注数据、Dir值筛选;
S4、训练判别模型;所述判别模型是一个分类模型,用于判断从S2中输入的数据属于真实数据还是经S1和S2生成的数据;
S5、训练异常检测模型;所述异常检测模型是一个有监督的全连接神经网络模型,使用神经网络的前向传播,计算出每个点的离群度;
S6、执行异常检测操作:步骤S2、S3、S4、S5经多次迭代计算之后得到训练好的整体异常检测模型,最后使用S5中的训练好的异常检测模型进行异常检测。
2.根据权利要求1所述的基于生成式对抗主动学习的离群点检测方法,其特征在于,所述步骤S2的生成模型由k个子生成模型组成,k值表示输入数据经判别模型判断之后的类别数量,同时S1的输入数据也根据其经判别模型判断之后所属类别被分为k份子数据集,k值由人工根据不同数据包含类别数设定。
3.根据权利要求1所述的基于生成式对抗主动学习的离群点检测方法,其特征在于,所述步骤S2的生成模型的子生成模型使用如下公式进行训练优化,使生成模型产生的新样本难以被判别模型识别:
其中,G表示生成模型计算,D表示判别模型计算,mi表示第i个子生成模型生成的潜在离群点数量,表示第i个子生成模型使用隐向量z和已有标签y生成的样本,γi为第i份输入子数据集中经判别模型D(xi)后的最小值,作为表征统计参数。
4.根据权利要求3所述的基于生成式对抗主动学习的离群点检测方法,其特征在于,所述步骤S2的生成模型训练的损失函数为:
其中,表示生成样本的条件概率分布,R表示真实输入数据集中的正样本,表示生成样本的条件概率分布,yi表示真实输入数据集的标签值,E表示数学期望。
5.根据权利要求1所述的基于生成式对抗主动学习的离群点检测方法,其特征在于,所述步骤S3的主动学习分类模型由一个分类器模型和附加约束组成,具体为支持向量机分类器和多样性、信息丰富、代表性约束组成;先用已有真实标签的数据训练支持向量机分类器,再用训练好的支持向量机分类器,对生成的数据标注,最后结合三个约束筛选样本数据;
其中,多样性约束为了减少冗余,具体计算公式为:
其中,dui表示当前数据集xi中数据点,dsi表示其他数据集中的点,K表示计算欧式距离;
信息丰富函数为:
Informativeness(dui)=1-|p(dui)|
其中,dui表示当前数据集中的点,duj表示当前数据集中其他的点,αj表示当前数据集的拉格朗日乘数,yj表示duj对应的标签,b为偏置参数由训练得到,K表示计算欧式距离,|p(dui)|表示取绝对值;
代表性表示该点和同一数据集中其他点之间的相似性,公式为:
其中,dui表示当前数据集中数据点,duj表示当前数据集中其他的点,K表示计算欧式距离,n为该数据集中数据点数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于之江实验室,未经之江实验室许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210641407.7/1.html,转载请声明来源钻瓜专利网。