[发明专利]一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法在审

申请号：	202111409785.4	申请日：	2021-11-24
公开（公告）号：	CN114091661A	公开（公告）日：	2022-02-25
发明（设计）人：	李童;刘晓东;张润滋;杨震	申请（专利权）人：	北京工业大学;绿盟科技集团股份有限公司
主分类号：	G06N3/04	分类号：	G06N3/04;G06N3/08;G06N20/10;H04L9/40
代理公司：	北京思海天达知识产权代理有限公司 11203	代理人：	张慧
地址：	100124 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于生成对抗网络近邻算法提高入侵检测性能采样方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于生成对抗网络和k‑近邻算法提高入侵检测性能的过采样方法，用于提高入侵检测的性能，具体包括：对原始数据进行数值化和归一化处理；基于WGAN‑GP构建生成模型并利用少数类攻击样本和随机噪声对其训练，使生成器对攻击分布进行建模，从而生成攻击样本；采用k‑近邻算法过滤生成攻击样本中的噪声；最后，利用方差分析对数据的字段属性进行重要性排序，根据排序结果进行特征选择，去除不必要的特征，最终得到过采样后的训练集；利用本发明生成的过采样后的训练集能够有效提升入侵检测模型的性能。

技术领域

本发明涉及一种基于生成对抗网络和k-近邻算法的过采样技术，用于提高入侵检测的性能，属于入侵检测领域。

背景技术

入侵检测是一种有效的检测和防御网络攻击的方法，它可以实时监控网络流量，将网络记录分为正常记录和恶意记录，为防御系统提供必要信息。随着大数据时代的到来，机器学习方法得到了高速发展，也成为了入侵检测广泛采用的方法。然而，在现实生活中攻击发生的频率远低于正常活动，用于机器学习模型训练的数据集往往是不平衡的，从而影响检测性能。过采样技术通常用于解决数据集不平衡的问题。研究人员提出了合成少数过采样技术(SMOTE)和自适应合成采样技术(ADASYN)，它们通过在同一类的两个实例之间插入来生成样本。但是网络流量的复杂性导致其类边界模糊，使用插值可能会产生跨边界的样本，增加了决策边界的混乱。此外，这些方法只关注类标签，不考虑特征关系的相似性，增加了产生噪声的风险。

生成对抗网络(GAN)是一种深度学习模型，可以模拟复杂的高维分布的真实世界数据，其结构如图1所示。它受到博弈论中两人零和博弈的启发，由一个生成器和一个判别器组成。生成器和判别器都是神经网络结构。生成器捕捉真实数据样本的潜在分布，生成新的数据；判别器判断输入的是真实数据还是生成的数据。生成器网络使用判别器作为损耗函数，并更新其参数以生成看起来更真实的数据。另一方面，判别器网络更新其参数，以便更好地从真实数据中识别出生成的数据。两个网络通过迭代训练，使生成器可以生成接近真实的样本。GAN根据数据分布生成的样本在特征上更接近真实数据，因此已经有研究者将GAN应用于入侵检测中，用于生成攻击样本。然而，基于GAN的过采样方法同样存在产生噪声的风险。

k-近邻算法(KNN)是一个有监督的机器学习算法，可以用来解决分类问题和回归问题。KNN算法的核心思想是未标记样本的类别，由距离其最近的k个邻居投票来决定。具体的，对于一个未标记的实例，在训练集中找到与该实例最邻近的k个实例，这k个实例的多数属于某个类，就把该输入实例分类到这个类中。基于这一思想，我们可以将其用于噪声过滤，即对于生成的攻击样本，在训练集中找到与该实例最邻近的k个实例，如果这k个实例的多数属于非攻击样本，那么我们将其标记为噪声。

方差分析(ANOVA)是一种常用的特征选择方法，通过特征本身的方差来筛选特征。如果一个特征本身的方差很小，就表示样本在这个特征上基本没有差异，可能特征中的大多数值都一样，甚至整个特征的取值都相同，那这个特征对于样本区分没有什么作用。因此，我们基于ANOVA分别计算每个特征的f值。最后，根据特征的重要性进行排序，得到最佳子集。

发明内容

为了解决由于机器学习模型训练数据集的不平衡性，从而导致检测性能差的问题，本发明的目的在于提出一种提高入侵检测性能的过采样方法，通过对攻击样本分布建模，从而生成高质量的攻击样本；再利用近邻信息对生成样本进行噪声过滤，最后将样本补充至原始数据集中，提高训练集的平衡性，进而提高入侵检测性能。

为实现上述目的，本发明采用的技术方案为基于生成对抗网络(GAN)和k-近邻算法的降噪过采样方法。如图2所示，该方法共包含以下五个步骤：

·数据预处理：原始数据的字段包含字符型、数值型等多种数据类型，并且特征尺度不一致，因此我们对数据进行数值化和归一化处理，并提取出攻击样本用于训练生成模型；

·针对每一种攻击分别构建生成模型：本发明基于WGAN-GP构建生成模型，并利用少数类攻击样本和随机噪声对WGAN-GP进行训练，使生成器对攻击分布进行建模，用于生成攻击样本。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京工业大学;绿盟科技集团股份有限公司，未经北京工业大学;绿盟科技集团股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111409785.4/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06N 基于特定计算模型的计算机系统
G06N3-00 基于生物学模型的计算机系统
G06N3-02 .采用神经网络模型
G06N3-12 .采用遗传模型
G06N3-04 ..体系结构，例如，互连拓扑
G06N3-06 ..物理实现，即神经网络、神经元或神经元部分的硬件实现
G06N3-08 ..学习方法

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法在审

专利文献下载