[发明专利]一种基于深度学习和序列化特征的网络应用识别方法及系统有效
申请号: | 202110444021.2 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113179223B | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 余顺争;汪擎天 | 申请(专利权)人: | 中山大学 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/24;G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 刘俊 |
地址: | 510275 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 序列 特征 网络 应用 识别 方法 系统 | ||
本发明为克服深度学习将网络流量转换为二维图片导致存在分类效果较弱的缺陷,提出一种基于深度学习和序列化特征的网络应用识别方法及系统,其中方法包括以下步骤:提取未知网络应用服务流量中的会话流,对会话流进行数据预处理;从会话流中提取序列特征,得到一组完整的反映网络应用流量特性的时序特征数据;将时序特征数据输入神经网络分类模型,得到未知网络应用服务流量的识别结果。本发明通过从会话流中提取序列特征信息,再通过一维的神经网络进行深度学习及分类,利用流量数据为一维数据的特征,有效提高网络应用识别的准确率。
技术领域
本发明涉及网络流量分析技术领域,更具体地,涉及一种基于深度学习和序列化特征的网络应用识别方法及系统。
背景技术
随着各种数据传输加密技术的广泛应用,流量加密已成为当前网络应用的事实标准做法,尤其是各类恶意软件为逃避防火墙和入侵检测系统的检测,纷纷采用TLS等技术对其通信流量进行加密,这些做法使传统分类器难以识别其中加密字段的数据,导致一些恶意软件达到其攻击目的。因此,如何将加密流量分类至具体的某个网络应用有着重大的意义。
目前,网络应用分类使用较多的是基于传统机器学习的分类方法,这些方法主要依赖于从整个网络流中获得的统计特征,且不适用于早期分类。近年来深度学习的方法也在流量分类领域显示出潜力,但目前的研究都是直接将流量转换为二维图片,没有利用流量是一维序列数据这一特点,因此分类效果较弱。
发明内容
本发明为克服上述现有技术中深度学习将网络流量转换为二维图片导致存在分类效果较弱的缺陷,提供一种基于深度学习和序列化特征的网络应用识别方法,以及一种基于深度学习和序列化特征的网络应用识别系统。
为解决上述技术问题,本发明的技术方案如下:
一种基于深度学习和序列化特征的网络应用识别方法,包括以下步骤:
S1:提取未知网络应用服务流量中的会话流,对所述会话流进行数据预处理;
S2:从所述会话流中提取序列特征,得到一组完整的反映网络应用流量特性的时序特征数据;
S3:将所述时序特征数据输入神经网络分类模型,得到未知网络应用服务流量的识别结果。
作为优选方案,对所述会话流进行数据预处理的步骤包括:
S11:将原始网络应用服务流量中的会话流切分为会话数据集;
S12:从所述会话数据集中提取会话中每条流量的数据流负载信息作为有效载荷字节并保存;
S13:选取独热编码方式,将所述会话数据集中的明文数据对应的有效载荷字节编码为独热数据形式。
作为优选方案,所述原始网络应用服务流量中的会话流以会话作为切分的基本单元。
作为优选方案,所述会话包括具有相同五元组的所有包,所述五元组包括源IP、源端口、目的IP、目的端口和传输层协议。
作为优选方案,从所述会话流中提取序列特征的步骤包括:
S21:采用双向LSTM网络对经过数据预处理且经过独热编码的明文数据包进行学习,得到每个明文数据包对应的载荷特征向量;
S22:将经过数据预处理的密文数据包进行统计特征提取,将得到的统计特征向量和所述载荷特征向量排列得到时序特征数据;所述统计特征包括密文数据包的包大小及包间隔时间。
作为优选方案,所述双向LSTM网络包括依次连接的两个LSTM层,以及全连接层,其中,所述两个LSTM层依次从正向和反向扫描序列;所述全连接层采用ReLU函数作为激活函数,并采用Dropout机制丢失50%的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中山大学,未经中山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110444021.2/2.html,转载请声明来源钻瓜专利网。