[发明专利]一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法在审
申请号: | 202111409785.4 | 申请日: | 2021-11-24 |
公开(公告)号: | CN114091661A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 李童;刘晓东;张润滋;杨震 | 申请(专利权)人: | 北京工业大学;绿盟科技集团股份有限公司 |
主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06N20/10;H04L9/40 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 张慧 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 生成 对抗 网络 近邻 算法 提高 入侵 检测 性能 采样 方法 | ||
1.一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法,其特征在于:包括以下步骤,
步骤(1)数据预处理:入侵检测的数据实例包含字符型特征和数值型特征,对于字符型特征,对其进行数值型转换,使其适用于训练,具体的,将字符型特征映射为[0,S-1]之间的整数值,其中S是特征值的个数,经过数值化处理后,数据集中的特征均为数值型,为了消除指标之间的量纲影响,通过如下公式将所有特征值缩放至[0,1]区间,
其中x是归一化之前的特征值,x′是归一化之后的特征值,xmax为相应特征的最大值,xmin为相应特征的最小值,经过数据数值化和归一化之后,根据需要生成样本的攻击类型提取相应的攻击子集,命名为DSAttack;
步骤(2)针对每一种攻击分别构建生成模型,其中,攻击样本生成模型基于WGAN-GP设计,由生成器和判别器组成,定义生成器为G,判别器为D,G和D均为前馈神经网络,G依次包括输入层、4个隐藏层和输出层,输出层得到的样本为生成的样本,输出层神经元个数与预处理后的数据维度相同,激活函数为Linear,其余层激活函数为ReLu;D包括输入层、隐藏层和输出层,D的输出层结果用来判定样本是真实样本还是生成样本,输出层神经元个数设置为1,激活函数为Linear,其余层激活函数为ReLu;
步骤(3)将经过步骤(1)预处理之后的原始训练集输入训练完成的对应攻击的生成器中,生成相应的攻击样本集合SampleAttack;
步骤(4)利用k-近邻算法过滤生成的攻击样本集合中的噪声数据,当生成样本的近邻中有超过半数是非攻击样本时,将当前样本视为噪声并从集合中删除,其中,k值设置为3-5之间;
步骤(5)利用方差分析法进行特征选择,具体的,将噪声过滤后的攻击样本集合与原始训练集合并,对全部特征进行重要性排序,在去除不必要特征后,最终得到用于入侵检测模型训练的新训练集DSnew。
2.根据权利要求1所述的一种基于生成对抗网络和k-近邻算法提高入侵检测性能的过采样方法,其特征在于:步骤(2)所述的生成模型的初始化和训练过程具体如下,
第一步,按照上述设计初始化生成器和判别器的网络结构,并且定义一个服从正态分布的噪声分布;
第二步,准备真实数据和噪声数据:真实数据是从步骤(1)中得到的攻击子集DSAttack,噪声Noise是从噪声分布中取得与DSAttack数据量相同的噪声;
第三步,固定生成器,训练判别器:噪声Noise通过生成器生成相同数量的样本SampleAttack,利用DSAttack和SampleAttack训练判别器,使判别器可以区分数据是来自DSAttack的真实数据还是来自SampleAttack;
第四步,固定判别器,训练生成器:采用经过第三步训练k轮次后的判别器训练生成器,用于使判别器无法区分数据是DSAttack还是SampleAttack;
按照第三步和第四步多次更新迭代生成器和判别器,最终使判别器无法区分数据到底是真实的训练样本还是生成器生成的样本时,完成训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学;绿盟科技集团股份有限公司,未经北京工业大学;绿盟科技集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111409785.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种农药残留检测装置
- 下一篇:一种软岩隧道韧性支护结构