[发明专利]一种基于集成学习的加密流量识别方法有效
申请号: | 202010143787.2 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111385145B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 翟江涛;崔永富;林鹏;吉小鹏;石怀峰;张艳艳;付章杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L43/0876;H04L43/026;H04L47/2483;H04L47/2441 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 加密 流量 识别 方法 | ||
本发明公开了一种一种基于集成学习的加密流量识别方法,其特征在于,包括以下步骤:(1)数据集采集;(2)数据预处理;(3)平衡数据集;(4)自动提取特征;(5)识别流量;(6)对获得的指标结果分析,并选取合适的参数,优化算法。本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题,识别率高,误报率低,适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。
技术领域
本发明涉及一种基于集成学习加密流量识别方法。
背景技术
流量分类与识别是提升网络管理与安全监测水平,改善服务质量的基础,也是网络设计与规划等网络行为的前提。随着网络技术的快速发展,越来越多的网络应用都用加密协议来保证信息在网络中安全的传输,加密流量在现实的网络流量中占有越来越大比重。但是由于加密流量的隐蔽性的特点往往成为网络攻击的载体,近年来网络安全事件愈演愈烈,究其原因网络安全问题尚没有得到足够的重视,网络攻击往往以加密的网络流量为载体不断攻击系统网络。现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击往往采用了相关隐匿技术绕过安全设备入侵系统。由于加密流量的隐蔽性的特点往往成为网络攻击的载体,一些恶意软件通过加密技术绕过防火墙和入侵检测系统,识别加密流量是异常流量检测的首要任务,恶意流量的有效识别事关网络安全,如果不能有效地检测异常入侵,就会时刻威胁着网络空间的安全,对加密流量的识别已经成为防御网络攻击的重点。
网络安全的威胁越来越受到人们的关注,针对其的识别受到研究者的青睐。加密流量的识别目前方法主要有6类:基于有效负载特征字段匹配的识别方法、基于机器学习的方法、基于主机行为的识别方法、基于数据分组分布的方法、基于负载随机性的方法以及多种策略结合的方法(PAN Wubin,CHENG Guang,GUO Xiaojun,et al.Review andperspective on encrypted traffic identification research[J]. Journal ofSoftware,2016,37(9):154-167.)。剑桥大学Moore等人提出了一种基于特征字段匹配的识别模型,其方法通过对数据包网络协议特征的匹配,能有效地识别各类流量,但最大的缺陷无法识别协议交互阶段加密数据和私有协议(Moore AW,Papagiannaki K.Toward theaccurate identification of network applications[C]. International Conferenceon Passive and Active etwork Measurement,2005:41-54.)。赵博等人提出了一种基于加权累积和检验的时延自适应加密流量盲识别算法,利用加密数据的随机性特点,实现对加密流量的有效识别(ZHAO Bo,GUO Hong, LIU Qinrang,etal.Protocol independentidentification of encrypted traffic based on weighted cumulative sum test[J].Journal of Software,2013,24(6):1334-1345)。Meng Shen等人利用SSL/TLS协议会话证书包的长度和第一个应用程序数据的大小,提出一种基于二阶马尔科夫链的SOB模型,实验表明该方法能有效区别加密流量 (HEN Meng,WEI Mingwei,ZHU Liehuang,etal.Classification of Encrypted Traffic With Second-Order Markov Chains andApplication Attribute Bigrams[J].IEEE Tranlations on Information Forensicsand Security,2017,12(8):1830-1843.)。然而上述方法往往没有考虑网络流量存在不平衡的现象,现实网络中加密数据流相比其他数据流稀少得多,存在样本类别不平衡的问题。无论是浅层机器学习,还是深度学习,分类识别研究基础都是基于一种假设:各种网络应用流都是均匀分布在网络中,即网络数据流的应用类别是平衡的。然而,现实网络中各种加密应用数据流分布很不均衡,比如通过加密协议承载的音、视频流远大于即时通信、纯网页加密流等,SSH、IPsec等加密协议的数据流远远少于HTTPS协议。网络应用流类别不平衡是指数据集中存在的类别样本数量不均衡,通过训练,这些分类算法可能会忽略少数类别的流样本导致欠拟合,或重视少数类的差别造成过拟合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143787.2/2.html,转载请声明来源钻瓜专利网。