[发明专利]一种基于深度学习和序列化特征的网络应用识别方法及系统有效
申请号: | 202110444021.2 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113179223B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 余顺争;汪擎天 | 申请(专利权)人: | 中山大学 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/24;G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 序列 特征 网络 应用 识别 方法 系统 | ||
1.一种基于深度学习和序列化特征的网络应用识别方法,其特征在于,包括以下步骤:
S1:提取未知网络应用服务流量中的会话流,对所述会话流进行数据预处理;
S2:从所述会话流中提取序列特征,得到一组完整的反映网络应用流量特性的时序特征数据;其中,从所述会话流中提取序列特征的步骤包括:
S21:采用双向LSTM网络对经过数据预处理的明文数据包进行学习,得到每个明文数据包对应的载荷特征向量;
S22:将经过数据预处理的密文数据包进行统计特征提取,将得到的统计特征向量和所述载荷特征向量排列得到时序特征数据;所述统计特征包括密文数据包的包大小及包间隔时间;
S3:将所述时序特征数据输入神经网络分类模型,得到未知网络应用服务流量的识别结果;所述神经网络分类模型包括一维CNN网络。
2.根据权利要求1所述的网络应用识别方法,其特征在于,对所述会话流进行数据预处理的步骤包括:
S11:将原始网络应用服务流量中的会话流切分为会话数据集;
S12:从所述会话数据集中提取会话中每条流量的数据流负载信息作为有效载荷字节并保存;
S13:选取独热编码方式,将所述会话数据集中的明文数据对应的有效载荷字节编码为独热数据形式。
3.根据权利要求2所述的网络应用识别方法,其特征在于,所述原始网络应用服务流量中的会话流以会话作为切分的基本单元。
4.根据权利要求3所述的网络应用识别方法,其特征在于,所述会话包括具有相同五元组的所有包,所述五元组包括源IP、源端口、目的IP、目的端口和传输层协议。
5.根据权利要求1所述的网络应用识别方法,其特征在于,所述双向LSTM网络包括依次连接的两个LSTM层,以及全连接层,其中,所述两个LSTM层依次从正向和反向扫描序列;所述全连接层采用ReLU函数作为激活函数,并采用Dropout机制丢失50%的特征。
6.根据权利要求1所述的网络应用识别方法,其特征在于,所述一维CNN网络包括依次连接的过滤器、卷积层、池化层、全连接层和Softmax层。
7.根据权利要求6所述的网络应用识别方法,其特征在于,所述卷积层和池化层在同一维度上操作。
8.根据权利要求6所述的网络应用识别方法,其特征在于,还包括以下步骤:采集不同的已知网络应用服务流量中的会话流,对其进行序列特征提取后输入所述神经网络分类模型中进行预训练,所述神经网络分类模型输出相应的预测标签;根据所述预测标签与其相应的网络应用服务流量类别进行比较,并对所述神经网络分类模型的参数进行调整。
9.一种基于深度学习和序列化特征的网络应用识别系统,应用于权利要求1~8任一项所述的基于深度学习和序列化特征的网络应用识别方法,其特征在于,包括:
数据预处理模块,用于提取网络应用服务流量中的会话流,对所述会话流进行数据预处理,并将所述会话流中的明文数据包编码为独热数据形式;
序列特征提取模块,用于从经过数据预处理的会话流中提取序列特征,得到一组完整的反映网络应用流量特性的时序特征数据;
神经网络分类模块,用于对输入的时序特征数据进行分类,输出得到网络应用服务流量的识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444021.2/1.html,转载请声明来源钻瓜专利网。