[发明专利]一种基于双通道卷积神经网络的加密流量分类方法有效
申请号: | 201910509860.0 | 申请日: | 2019-06-13 |
公开(公告)号: | CN110197234B | 公开(公告)日: | 2020-05-19 |
发明(设计)人: | 曾雪梅;陈兴蜀;岳亚伟;何涛;王丽娜;文奕;韩珍辉 | 申请(专利权)人: | 四川大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;H04L29/06 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 裴娟 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 双通道 卷积 神经网络 加密 流量 分类 方法 | ||
本发明公开了一种基于双通道卷积神经网络的加密流量分类方法,基于网络数据包包头属性和基于时间分段的低阶统计特征两个维度对网络流进行表示,然后通过双通道卷积神经网络,同时从两种网络流表示中学习加密流量特征,实现对加密流量上承载的应用类型进行分类。本发明在不需要专家知识介入的情况下,充分利用数据包头属性和流量统计特征在局部和整体上的优势,自动从两个维度学习流量特征,提高加密网络流量分类精度;且仅利用数据包头部中的字段信息,泛化能力强,不会违背数据的机密性和隐私保护策略。
技术领域
本发明属于网络安全与信息技术领域,具体涉及一种基于双通道卷积神经网络的加密流量分类方法。
背景技术
网络安全和隐私保护日益成为企业和网络用户关注热点,越来越多的企业选择VPN等来保护企业数据传输的安全,网络用户采用各种加密和匿名通信等技术来保护网络终端和个人隐私安全。而这些技术也被不法分子用于从事非法网络活动,以逃避网络安全监测。流量伪装与混淆技术被广泛使用,协议封装、流量代理等方法将一种加密流量封装在另一种加密流量中,改变了加密流量的原始特性。载体流量通常选择被广泛使用的协议类型,或是网络安全设备无法识别的流量类型。
基于传统机器学习方法的流量分类方法使用人工提取的特征,特征的有效性依赖专家知识。当加密流量统计特征发生变化时,基于人工提取特征的方法需重新对流量进行人工分析以寻找新的分类特征,灵活性和时效性差。
近年来深度学习开始应用到包括加密流量在内的网络流量分类中,以克服传统机器学习方法对特征工程的依赖。在基于深度学习的流量分类方法中,一个主要影响因素是输入数据。不同的流包含的数据包数量不同、持续的时间长度不同,在选择使用深度学习方法来解决加密流量分类问题时,并不能简单地按照和图像处理一样的方式,直接把网络流作为输入,需要对原始网络流量进行编码和取舍等预处理操作。输入数据中包含的信息量很大程度上决定了算法从流量中学习到的特征的有效性。把网络流量的哪些信息、以什么形式推送给深度学习算法,是将深度学习方法应用在流量分类任务时面临的首要问题,即网络流量的表示问题。
在现有的基于深度学习的流量分类研究中,根据对网络流量表示方式的不同,主要有基于原始数据、基于统计特征和基于数据包时序三种。基于原始数据的方法以数据包或流的包头与有效负载的字节二进制表示作为深度学习的输入。然而数据包的头部中存在与训练数据集相关的IP地址和端口信息,负载数据中协议握手阶段的明文信息往往也与训练数据集相关,容易导致模型泛化能力差,难以在真实网络环境中应用。而且,负载特征的使用还会违背用户隐私策略。基于统计特征的方法是把人工提取的流量统计特征作为输入,使用深度学习方法分类流量。但这种方法仅使用统计信息表征网络流量,可能导致流量中隐含的许多区分性信息丢失,且没有充分发挥深度学习的学习能力,其分类有效性将受输入特征有效性的影响。基于数据包时序的方法是将一条流的前多个数据包的属性特征按时间序列排序,然后利用深度学习方法提取特征和分类。但由于网络环境中的一些常见的网络事件会改变数据包级的特征分布,例如网络流量中常见的重传数据包,重复的ACK包,乱序数据数据包等。基于统计的方法可能能够免疫于这些不相关的数据包,但基于数据包时序的方法受这个问题的影响可能较大。因此,需要解决在尽可能保留网络流量数据原始特性的前提下,将任意长度的网络流处理为满足拟采用的深度学习算法要求的输入的问题。
另外,现有这些解决方案中,均使用单一通道结构,以某一种形式的网络流表示作为模型输入。如前所述,输入很大程度决定了输出,某一种方式的网络流表示容易存在仅表达了网络流量某一方面的特性(如局部细节特征),而缺少对其他方面特性的表征(如全局特性)的问题。为提升分类器的分类准确性,需要从多个不同的网络流表示中学习特征。而不同网络流表示通常是通过基于不同的维度或粒度的网络流预处理方法形成,存在尺寸不一致的问题。因此,需要解决从多个不同尺寸的网络流表示中同时学习特征的问题,即如何把不同尺寸的网络流表示作为分类模型的输入,并构建网络流量分类模型。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910509860.0/2.html,转载请声明来源钻瓜专利网。