[发明专利]一种基于序列特征的加密流量分类方法有效
申请号: | 201911366473.2 | 申请日: | 2019-12-26 |
公开(公告)号: | CN111147396B | 公开(公告)日: | 2023-03-21 |
发明(设计)人: | 梁恺;马春光 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L1/00 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 序列 特征 加密 流量 分类 方法 | ||
本发明提供一种基于序列特征的加密流量分类方法,通过对原始加密流量数据进行预处理;将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;将局部特征的输出结果使用长短时记忆网络学习数据分组的全局特征。本发明不需要人工提取特征,并且在此基础上,能够保证加密流量数据原有的序列特征,将其指定到具体应用;解决了的传统循环神经网络严重的梯度消失和梯度爆炸的问题;有效地解决了关于两种不同传输层协议的数据包长度不同的问题,并且过滤了网络层和数据链路层的干扰信息;很好地解决了长序列数据的预测问题。
技术领域
本发明属于网络安全领域,具体涉及一种基于序列特征的加密流量分类方法。
背景技术
近年来,随着互联网的快速发展,网络已经成为我们生产与生活中不可或缺的一部分,同时也为网络安全带来了重大挑战。自“棱镜”监控事件曝光后,越来越多的用户和企业开始重视信息的保护和安全传输,导致全球的网络加密流量不断飙升。由于加密流量大多是将应用层的数据加密,所以传统的非加密流量识别方法,比如端口号匹配、深度包检测等技术无法满足识别加密流量的需求。后来相关研究人员采用传统的机器学习的方法来识别加密流量,但是这种方法存在准确率低,提取特征依赖专家经验等缺点。
深度学习方法由于自动选择特征的优点,成为备受研究人员青睐的流量分类方法。深度学习的另一个优点是,与传统的机器学习方法相比较,它具有更强的学习能力。目前,研究人员在使用深度学习方法来识别加密流量,总是将原始加密流量数据进行升维,转换为图像分类的问题来对加密流量进行分类。目前研究中所使用的数据预处理方法存在以下两点问题:1.破坏了加密流量数据原始的序列特征,不能更加清楚地认识数据本身的特性;2.如果在分类之前对数据采用one-hot编码,会将连续数据离散化,这样破坏了序列数据本身的有序性。
本发明解决了上述两个问题,立足于数据本身,提出了一种基于序列特征的加密流量分类方法,并且在保证不需对加密数据进行解密的情况下,构建了一个更加有效的分类模型,将原始加密流量分类到具体应用。
发明内容
本发明的目的在于提供了一种基于序列特征的加密流量分类方法,不需要人工提取特征,并且在此基础上,能够保证加密流量数据原有的序列特征,将其指定到具体应用。
本发明的目的是这样实现的:
一种基于序列特征的加密流量分类方法,具体的步骤为:
步骤1.对原始加密流量数据进行预处理;
步骤2.将预处理后的数据使用基于注意力机制的一维卷积网络学习数据分组的局部特征;
步骤3.将步骤2的输出结果使用长短时记忆网络学习数据分组的全局特征。
所述对原始加密流量数据进行预处理的具体步骤为:
步骤1.1.采用pickle工具包提取原始流量数据的标签,即每条流量所属的应用;
步骤1.2.使用分析工具来统计pcap数据中数据分组的最大长度,并且使用scapy流量数据处理工具过滤掉数据分组的头部信息,并得到TCP和UDP数据分组;
步骤1.3.统一TCP和UDP数据分组的字节长度,字节长度为步骤2得到的最大长度;
步骤1.4.将数据与所属应用进行整合,标记经过上述处理的数据;
步骤1.5.标准化流量数据,对数据的每一字节特征除以255,转换为区间为[0,1]的数,并将流量标签转换为one-hot编码。
所述使用基于注意力机制的一维卷积网络学习数据分组的局部特征的具体步骤为:
步骤2.1.将数据预处理之后的分组字节矩阵转换为神经网络的固定输入格式;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911366473.2/2.html,转载请声明来源钻瓜专利网。