[发明专利]基于集成学习的僵尸网络恶意流量分类方法及系统有效
申请号: | 202010122760.5 | 申请日: | 2020-02-27 |
公开(公告)号: | CN111340191B | 公开(公告)日: | 2023-02-21 |
发明(设计)人: | 陈羽中;张毓东 | 申请(专利权)人: | 福州大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/047;G06N3/084;G06N20/20;H04L9/40 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 丘鸿超;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 集成 学习 僵尸 网络 恶意 流量 分类 方法 系统 | ||
1.一种基于集成学习的僵尸网络恶意流量分类方法,其特征在于,包括以下步骤:
步骤A:将已标注类别的恶意流量数据转换为带类别标签的IDX图像数据,建立恶意流量训练集R;
步骤B:构造包含三个深度残差卷积神经网络的初级分类器,构造softmax逻辑回归模型作为次级分类器;
步骤C:将训练集R分为R0和R1两部分,使用R0训练初级分类器,提取恶意流量特征向量,并将提取的特征向量添加到R0中,以增强该部分训练集;
步骤D:将增强后的训练集与R1合并,用其训练次级分类器;
步骤E:将待判定类别的恶意流量数据转换为IDX图像格式,输入到训练好的次级分类器,输出判定结果;
所述步骤A具体包括以下步骤:
步骤A1:从已标注类别的恶意流量数据中清除没有应用层数据的数据报文;
步骤A2:对步骤A1处理后的恶意流量数据进行划分,将属于同一TCP会话的恶意流量数据划分为一组,将恶意流量数据中的网络层、传输层、应用层报文信息保存到一个二进制文件中;
步骤A3:将步骤A2得到的二进制文件截断或补0x00到固定长度M个字节,以保留TCP会话中能够反映流量类别特征的网络层首部、传输层首部、应用层首部信息以及部分应用层数据,去除不能反映流量类别特征的其他应用层数据;以字节为单位,将每个字节转换为灰度值,输出大小为m×m的灰度图像文件,M=m2;
步骤A4:将步骤A3得到的灰度图像文件转换为IDX图像文件;
步骤A5:遍历已标注类别的恶意流量数据,得到训练集R;
其中R={(xi,yi)|i=1,2,...,N},N为训练集R中的恶意流量样本数,xi为一个IDX图像文件,yi为对应的恶意流量类别标签;yi∈C={1,2,...,K},C表示恶意流量类别标签集合,yi=c,1≤c≤K,表示xi为第c种恶意流量类别。
2.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述恶意流量类别为包括Cridex、Geodo、Htbot、Miuref、Neris、Nsisay、Shifu、Virut和Zeus的僵尸网络恶意流量。
3.根据权利要求1所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤B中,所述三个深度残差卷积神经网络分别为ResNet1、ResNet2和ResNet3;每个深度残差卷积神经网络包括五个残差单元和两个全连接层;其中,每个残差单元按照输入样本的数据流向依次包括1个卷积层、1个批量正则化层、1个线性激活层和2个卷积层。
4.根据权利要求3所述的基于集成学习的僵尸网络恶意流量分类方法,其特征在于,所述步骤C具体包括以下步骤:
步骤C1:将数据集R随机分为R0和R1两个训练子集,再将R0随机拆分成三个训练子集和
步骤C2:分别使用和三个训练子集对三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3进行训练;
步骤C3:利用步骤C2训练好的三个深度残差卷积神经网络ResNet1、ResNet2和ResNet3分别对R0中的每个IDX图像样本进行恶意流量特征向量提取,然后对ResNet1、ResNet2和ResNet3获得的特征向量求平均,输出与各IDX图像样本对应的特征向量,并将各特征向量覆盖到对应的IDX图像样本的二进制文件末尾,保持文件字节数不变;遍历R0中的每个IDX图像样本后,得到特征增强后的训练子集
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010122760.5/1.html,转载请声明来源钻瓜专利网。