[发明专利]一种基于对抗生成网络流量增强的不均衡流量分类方法和系统在审
申请号: | 202111192487.4 | 申请日: | 2021-10-13 |
公开(公告)号: | CN114036356A | 公开(公告)日: | 2022-02-11 |
发明(设计)人: | 熊刚;李镇;郭煜;崔明鑫;徐安林;管洋洋 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对抗 生成 网络流量 增强 均衡 流量 分类 方法 系统 | ||
本发明涉及一种基于对抗生成网络流量增强的不均衡流量分类方法和系统。该方法在原始的不平衡流量数据集上预训练一个经验最优的网络作为分类器的初始状态;然后对生成器、判别器和分类器进行同步训练;生成器对少数类流量进行过采样以生成流量样本,并输入判别器和分类器;判别器判断输入的流量样本是真实数据还是生成器生成的数据,并反馈给生成器以帮助其进行优化学习;分类器对网络流量进行分类并将分类结果反馈至生成器,使生成器生成更符合对应类别样本分布的流量样本;训练完成后分类器的输出结果即为不均衡流量分类结果。本发明避免了使用通用过采样算法造成的不适用于流量数据的弊端,可以在真实网络环境中实现对不均衡流量的有效分类。
技术领域
本发明涉及一种基于对抗生成网络流量增强的不均衡流量分类方法和系统,属于计算机软件技术领域。
背景技术
网络流量分类作为网络管理和网络安全的重要基础技术,在服务质量优化、基于流量的网络计费、网络入侵检测等任务中起着不可或缺的作用。随着加密协议的发展和人们对隐私保护要求的提高,目前的网络流量呈现全加密化的趋势,基于端口和规则匹配的流量分类技术不再适用,机器学习成为应用于流量分类研究的最主流和最有效技术。但是,互联网流量普遍呈现出天然的不均衡分布。一些高价值的流量可能发生几率小,并且所占比例非常低。这对机器学习技术的应用提出了巨大的挑战。因为大多数机器学习算法在设计的时候是以实现最高的整体精度为目标的,并未考虑类不均衡的情况。真实世界流量的不均衡分布会导致机器学习模型对多数类流量的频繁预测和对少数类流量的忽视,从而导致大多数现有的基于机器学习的流量分类方案的降级。在某些场景下,如恶意流量识别和入侵检测,少数类的性能降级所带来的危害是非常巨大的。因此,不均衡网络流量分类研究正在吸引越来越多的研究者关注。
过采样指的是通过增加少数类样本的数量来缓解不均衡带来的影响。不均衡流量分类研究经常采用一些通用的过采样算法及其改进来提高少数类的表现,比如随机过采样(ROS)、合成少数类过采样技术(SMOTE)、自适应合成抽样(ADASYN)等。但是,通用过采样算法仅对少数类流量样本进行简单复制或基于距离和特定规则进行新的流量样本合成。以SMOTE算法为例,其前提假设是,若将样本的特征表示映射到欧式空间,那么在欧式空间中,少数类样本周围的样本也大概率属于少数类。而对于流量数据来说,类别之间重叠多,少数类流量样本分布散乱、规律性差,无法满足该前提假设。而且,流量数据的特征可能为基本统计特征、序列特征、协议字段特征、原始报文等多种表示,同类样本之间的相关性隐藏较深,在欧式空间中未必具有类内相似性。虽然也有一些研究对SMOTE算法提出了一些改进,但是本质上还是基于距离和特定规则来合成样本,难以改变其本质缺点。
为了获得更好的效果,一些研究采用了当前流行的深度学习技术来进行数据增强,尤其是生成对抗网络(GAN)。虽然GAN及其变种作为一类优秀的生成式模型,可以自动学习和调整样本生成的方向,通过拟合真实的数据分布生成新样本,具有强大潜力,但是由于流量数据并非图像这样的可视化数据,很难判断其生成样本的质量以及控制生成过程。此外,已有研究都把不均衡流量分类分为两个孤立的子问题,即过采样和分类器训练。这不利于获得全局最优结果。
发明内容
本发明旨在提供一种基于生成对抗网络的不均衡网络流量分类方法和系统,避免了使用通用过采样算法造成的不适用于流量数据的弊端,可以在真实网络环境中实现对不均衡流量的有效分类。本发明通过在传统的生成对抗网络中引入分类器,将少数流量样本的生成与目标分类器的训练结合起来,同步进行,形成端到端的一体化框架。本发明设计了反馈机制,可以更好地指导流量样本生成的方向,同时指示合成流量样本的质量。本发明还能为已有的基于深度学习的流量分类方案提供扩展,使其更好地适应不均衡网络环境。
本发明采用的技术方案如下:
一种基于对抗生成网络流量增强的不均衡流量分类方法,包括以下步骤:
在原始的不平衡流量数据集上预训练一个经验最优的网络,作为分类器的初始状态;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111192487.4/2.html,转载请声明来源钻瓜专利网。