[发明专利]一种基于对抗生成网络流量增强的不均衡流量分类方法和系统在审
申请号: | 202111192487.4 | 申请日: | 2021-10-13 |
公开(公告)号: | CN114036356A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 熊刚;李镇;郭煜;崔明鑫;徐安林;管洋洋 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 生成 网络流量 增强 均衡 流量 分类 方法 系统 | ||
1.一种基于对抗生成网络流量增强的不均衡流量分类方法,其特征在于,包括以下步骤:
在原始的不平衡流量数据集上预训练一个经验最优的网络,作为分类器的初始状态;
对生成器、判别器和分类器进行同步训练,其中:生成器对少数类流量进行过采样以生成流量样本,并输入判别器和分类器;判别器判断输入的流量样本是真实数据还是生成器生成的数据,并将判断结果反馈给生成器,以帮助生成器进行优化学习;分类器对网络流量进行分类,并将分类结果反馈至生成器,使生成器生成更符合对应类别样本分布的流量样本;
生成器、判别器和分类器训练完成后,分类器的输出结果即为最终的不均衡流量分类结果。
2.根据权利要求1所述的方法,其特征在于,在对生成器、判别器和分类器进行同步训练之前,采用以下方式准备流量数据集:假定在不均衡流量分类任务中,由n个类别、共N个样本组成的流量数据集X用作训练集,根据类别规模从小到大给n类流量样本按照升序进行重新打标,得到X={X1,X2,…,Xn},其中|Xi|=Ni表示第i类的样本数量,i∈L={1,2,3,…,n},L为标签集合。
3.根据权利要求1所述的方法,其特征在于,所述生成器为每个少数类样本生成一组权重,生成器由一系列权重生成单元wGUi组成,i∈L=[1,n-1],n为类别个数;每个wGUi对应一个少数类,用于学习一个条件映射gi,从低维潜在空间到权重向量wi=gi(z|i),其中z是随机噪声;在每个特征维度上,每个i类样本贡献相应权重的值,然后所有样本加权求和得到生成样本在该特征维度上的值。
4.根据权利要求3所述的方法,其特征在于,所述生成器的优化目标函数是:
其中
其中,G表示生成器,V(G)表示生成器的目标函数,D表示判别器,Ci表示第i类的分类器,L\{i}表示非第i类的标签,表示第i类流量的生成条件概率分布,表示期望。
5.根据权利要求4所述的方法,其特征在于,所述判别器是一个条件判别器,即标签也是输入的一部分,以确保生成的样本不会落到目标少数类的真实分布之外;所述判别器的优化目标函数是:
其中
其中,D表示判别器,V(D)表示判别器的目标函数,x表示真实流量样本,表示第i类流量的真实条件概率分布。
6.根据权利要求5所述的方法,其特征在于,所述分类器的优化目标函数是:
其中,C表示分类器,V(C)表示分类器的目标函数,Ci(x)表示第i类的分类器对流量样本的预测结果。
7.根据权利要求1所述的方法,其特征在于,所述分类器、生成器和判别器同时进行训练,直到分类器的实时得分达到目标要求时训练完成,训练完成后分类器的输出结果即为最终的不均衡流量分类结果。
8.一种采用权利要求1~7中任一权利要求所述方法的基于对抗生成网络流量增强的不均衡流量分类系统,其特征在于,包括预训练模块、生成器、判别器和分类器;所述预训练模块用于在原始的不平衡流量数据集上预训练一个经验最优的网络,作为分类器的初始状态;所述生成器、判别器和分类器进行同步训练,其中:生成器对少数类流量进行过采样以生成流量样本,并输入判别器和分类器;判别器判断输入的流量样本是真实数据还是生成器生成的数据,并将判断结果反馈给生成器,以帮助生成器进行优化学习;分类器对网络流量进行分类,并将分类结果反馈至生成器,使生成器生成更符合对应类别样本分布的流量样本;训练完成后,所述分类器的输出结果即为最终的不均衡流量分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192487.4/1.html,转载请声明来源钻瓜专利网。