[发明专利]一种网络加密流量识别方法及装置有效
申请号: | 202010885293.1 | 申请日: | 2020-08-28 |
公开(公告)号: | CN112163594B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 徐小龙;林焜达 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 张欢欢 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络 加密 流量 识别 方法 装置 | ||
1.一种网络加密流量识别方法,其特征是,包括以下过程:
获取待识别的加密流量文件;
对待识别的加密流量进行预处理,所述预处理包括:将加密流量流切分为多个流;然后从每个流中采集多个连续数据包作为样本;最后将每个样本进行向量化、标准化处理,得到格式化的样本向量集合;
将预处理后得到的样本向量集合输入至预设训练的混合神经网络模型,得到预测向量,此预测向量中元素值代表加密流量属于各个分类的预测值;
所述混合神经网络模型包括:1D-CNN网络、堆叠双向LSTM网络和全连接层网络;其中1D-CNN网络对输入样本向量集合进行空间特征学习,输出低维特征图;堆叠双向LSTM网络对输入的特征图进行时序特征学习,得到包含时序特征的特征图向量,全连接层根据输入的时序特征的特征图向量确定预测向量;
基于预测向量计算得到各分类预测概率分布,取其中最大的概率对应的分类作为加密流量最终的分类标签;
所述1D-CNN网络的训练包括:
在向量化过程中保留每个样本中数据包的时序维度,设为一个样本中第t个数据包,t为0到n的任一整数,代指向量中任一数据包,它是一个L维度的向量;
x=[x1〉,x2,…,xM] (5)
x代表一个样本,它包含M个数据包的向量,在1D-CNN中,x视为包含M个通道,每个通道都是L维的二维向量;假设xi:i+j代表全部通道从任意位置i到i+j的字节;在x上一维卷积操作如下:
通常一个卷积层中包含多个卷积核,每个Filter操作相同,生成新特征图的一个通道;以其中任一卷积核t为例,为在x上滑动窗口,b为偏移值,f则是非线性的激活函数;为任一卷积核t生成的特征;
当前Filter在x上滑动时,该Filter的卷积操作应用到窗口内的字节上,序列{x1:h,x2:h+1,...,xn-h+1:n}将会生新特征图;所有Filter操作相同,每个Filter对应的参数w和b是不同的;
这里代表任一卷积核t生成的新特征图,也可视为输出通道t;对于每个通道的新特征图,还使用池化操作层对特征图进行降采样;池化操作层的操作同样使用Filter做滑动操作,但在每个Filter上通常执行的运算为保留每个滑动窗口中的最大值。
2.根据权利要求1所述的一种网络加密流量识别方法,其特征是,所述从流中采集多个连续数据包作为样本,包括:
若流为小流,采集流头部预设个数连续数据包组成一个样本,若已有数据包不足预设个数,则选择已有数据包,其余包补零处理;
若流为大流,从流中选取若干个采样点,以每个采样点作为起点,采集连续预设个数连续数据包组成一个样本。
3.根据权利要求2所述的一种网络加密流量识别方法,其特征是,所述采样点的选取方案包括:随机点采样,固定步长采样和突发点采样三种策略;其中:
所述随机点采样为流中随机点采样;所述固定步长采样以固定的步长从流量起始开始采样;所述突发点采样为寻找大流中的数据流突发点进行采样。
4.根据权利要求1所述的一种网络加密流量识别方法,其特征是,所述将样本进行向量化、标准化处理,包括:
将每个数据包保留预设长度字节数,不足则用全零补全,反之则进行截断;将每个样本转化为的向量;
对向量中每个数据进行标准化处理。
5.根据权利要求1所述的一种网络加密流量识别方法,其特征是,所述1D-CNN网络,包括:
1D-CNN网络由两层1D-CNN卷积层组成,对输入加密流量样本向量进行两次卷积操作,并且在每一层中对卷积操作输出的新特征图进行批标准化、非线性激活和降采样处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010885293.1/1.html,转载请声明来源钻瓜专利网。