[发明专利]基于时空特性相结合的深度学习流量分类方法有效
申请号: | 201910967739.2 | 申请日: | 2019-10-12 |
公开(公告)号: | CN110730140B | 公开(公告)日: | 2022-04-08 |
发明(设计)人: | 顾华玺;魏雯婷;薛智浩;曾祎 | 申请(专利权)人: | 西安电子科技大学 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;H04L43/028;H04L9/40 |
代理公司: | 陕西电子工业专利中心 61205 | 代理人: | 王品华;张问芬 |
地址: | 710071*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 时空 特性 相结合 深度 学习 流量 分类 方法 | ||
1.一种基于时空特性相结合的深度学习流量分类方法,其特征在于,包括如下:
(1)采集并标注原始网络流量负载数据,得到经过标注的网络流量负载数据:
(1a)从纯净网络节点处采集网络流量负载数据,并将其按照加密流量,未加密流量和恶意访问流量这三类进行分类,其中加密流量按照互联网中六大类应用进行细分标注,即Email、Chat、File、P2P、Streaming、和VoIP;
(1b)将本次采集的网络流量负载数据、以往时间点数据与预先构建的数据库进行随机混合,得到经过标注的网络流量负载数据库;
(2)基于经过标注的网络流量负载数据库,生成预处理后的流量图集:
(2a)将连续的网络流量利用抓包工具切分,以产生pcap格式的数据包,并存储;
(2b)对数据包进行协议除杂,即删除数据包内能直接反映流量服务类型的TCP协议和DCP协议相关数据,此部分数据在恶意访问流量或加密流量中为干扰项,在深度学习模型中会干扰模型的信息提取;
(2c)对数据包进行物理信息除杂,即删除物理地址相关信息,以避免深度学习模型误认为物理地址为某种服务相关的识别特征从而产生误分类;
(2d)删除空白数据包和重复的数据包,以避免对深度学习训练产生干扰;
(2e)统一数据包流量长度为900字节,即对超过900字节的流量包进行截取,不足900字节的流量包用0x00进行补齐;
(2f)将统一长度后的数据包做可视化处理,即将每个流量包转换为30*30大小的流量图,并最终将所有处理过的数据包合并为一个流量图集;
(3)构建依次由第一卷积层、第一局部归一化层、第二卷积层、第二局部归一化层、全连接层、LSTM层和softmax层连接组成的深度学习模型;
(4)对深度学习模型进行训练:
(4a)设置训练循环次数R;
(4b)将混合后的流量图集依次输入到第一卷积层、第一局部归一化层、第二卷积层和第二局部归一化层,以学习流量的空间特性,并对异常值进行归一化处理;
(4c)将(4b)处理过的数据输入到全连接层中,转换为LSTM模型可以接收的数据形式;
(4d)将(4c)所得的数据输入到LSTM层中,以学习流量的时间特性;
(4e)将(4d)所得的数据输入到softmax层,直接输出分类结果,即给出原始网络流量负载数据的标签;
(4f)根据(4e)得到的标签与训练集中的真实标签差异修改各网络层的权重及偏差,实现如下:
(4f1)求出深度学习模型的输出值与真实值之间的损失L:
其中,N为训练样本个数,yi为真实值,为网络输出值;
(4f2)将损失反向传回网络中,通过BP反向传播算法依次求得各网络层的损失函数Ln(wn,bn);
(4f3)根据(4f2)求得损失函数Ln(wn,bn),使用梯度下降法更新各网络层的权重wn及偏差bn,得到更新后的权重及偏差
其中,α为学习率,0<α≤0.1;
(4g)重复(4b)-(4f),直到达到训练循环次数R,得到一种训练好的深度学习模型;
(5)对训练好的深度学习模型进行验证与真实网络结点部署:
(5a)按照真实网络分类的精度需求设置合格率P;
(5b)按照(1)-(2)的步骤,重新采集原始网络流量负载数据并生成流量图集;
(5c)将(5b)中生成的流量图集输入训练好的深度学习模型,得到分类结果;
(5d)将(5c)的分类结果与真实标签进行比较,得到正确样本数,得到深度学习模型分类结果的正确率A:
若A>P,即为合格,此时将模型作为流量分类器部署于真实网络结点;
否则,重新进行步骤(1)-(4);
(6)对真实网络中的加密流量进行分类,将经步骤(2)预处理过的真实网络流量图传入流量分类器,将流量分为恶意流量、普通流量和六大类加密流量,并按照分类结果进行标注,针对其中的普通流量,调用DPI工具和端口号,直接标注流量服务类型;
(7)保存部分采集的数据作为已有数据,用于下时间点对深度学习模型的更新。
2.根据权利要求1所述的方法,其特征在于:所述步骤(3)中构建的深度学习模型,其参数设置如下:
第一卷积层的卷积核大小为5*5,个数为32;
第二卷积层的卷积核大小为5*5,个数为64;
第一局部归一化层和第二局部归一化层的局部大小均为7,缩放因子均为0.00011,指数项均为0.75;
LSTM层的隐藏层神经元个数为256。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安电子科技大学,未经西安电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910967739.2/1.html,转载请声明来源钻瓜专利网。