[发明专利]基于多级决策树的协议识别方法有效
申请号: | 201210246438.9 | 申请日: | 2012-07-16 |
公开(公告)号: | CN103546441A | 公开(公告)日: | 2014-01-29 |
发明(设计)人: | 薛一波;王大伟 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多级 决策树 协议 识别 方法 | ||
技术领域
本发明属于网络技术中协议识别技术领域,尤其涉及一种基于多级决策树的协议识别方法。
背景技术
随着高速网络技术和多媒体技术的飞速发展,业界越来越多地提出了包括多媒体通信在内的综合服务要求。然而,急速增长的用户数量和网络流量不断降低网络性能,尤其是一些非商务应用(例如:P2P、多媒体和网络游戏)占据了大量带宽,严重影响了关键业务的正常使用。网络协议识别技术能够保障关键业务,解决网络拥塞,逐渐成为了国内外的研究热点。
最早出现的协议识别技术是基于端口映射的协议识别技术。该技术利用端口号对协议进行识别,方法简单,所需信息少,时空复杂度低。但由于新出现的协议都不在IANA中注册其端口号,算法所能识别的协议在总协议数量中所占的比重越来越少。此外,网络中的很多协议使用动态端口,也是导致该方法失效的原因。
针对基于端口映射的协议识别技术的问题,业界提出了利用数据包的载荷部分对协议进行识别的技术。基于数据包载荷的协议识别技术首先利用逆向工程将协议或软件分解或者解析,解明它们的结构、使用方法及目的、组成部件与要素技术的原理,并从中找出能够识别协议的数据包载荷关键字。之后,利用高效的模式匹配及正则表达式匹配算法,在背景流量中寻找关键字,以达到协议识别的目的。然而,随着网络环境的日益复杂,越来越多的应用层协议采用加密协议加密数据包载荷。在这种情况下,寻找数据包载荷关键的难度越来越大,最终导致基于数据包载荷的协议识别技术严重失效。此外,由于该技术需要第三方监听网络载荷内容,在被政府的隐私保护法规限制时,监听方法的功能和作用会被大大减弱。
近年来,基于统计特征的协议识别技术逐渐成为业界关注的热点。不同于基于数据包载荷的协议识别技术,基于统计特征的协议识别技术着眼于网络流,从网络流中提取大量统计特征,并利用这些统计特征实现协议识别。传统上把网络流定义为具有相同五元组(<源地址,目的地址,源端口,目的端口,协议>)的数据包的集合。基于统计特征的协议识别技术的假设前提是不同协议会有其特有的网络流统计特性,并以此来识别不同的加密协议。由于该技术引入了大量的统计信息作为基本参考因素,所以它不可避免地将机器学习的方法结合到了识别中,期望取得更好的协议识别性能。机器学习方法使计算机能够模拟人类的学习活动,识别和获取已有知识,建立和不断完善学习模型,并且能够根据已有知识对新的信息进行处理。机器学习方法于2004年被引入到协议识别技术中,根据流量具有的统计特性对协议进行识别。例如,网络流持续时间的分布特性,流空闲时间,包间隔时间,包长度等信息,对于协议识别来说,是特有的信息。它们都可以作为判别式的特征被机器学习模型利用进行协议识别。
随着网络技术的不断发展,新型应用层协议层出不穷,而不同的协议在不同的统计特征上体现不同。一方面,为了更好地识别协议,越来越多的网络流统计特征被提出来用于训练机器学习模型;另一方面,越来越多的统计特征也对机器学习模型提出了新的要求:首先,越来越多的统计特征势必会造成机器学习模型所处空间维数的增大,而多数机器学习算法都易受到空间维数的影响,在高维空间中的识别效果较差;其次,虽然统计特征均是从网络流中提取,这些特征本身也存在一定的分类。例如,对于某些交互式协议,我们可以按照协议所处的阶段对提取的统计特征进行分类。这些分类本身蕴含的知识能够进一步提升机器学习模型的性能。
合理利用大量的网络流统计特征进行协议识别,不仅能够极大地提升基于统计特征的协议识别系统的性能,还能够应对不断增多的协议带来的挑战。然而,目前大多数基于统计特征的协议识别方法仅是简单地将大量的统计特征输入到模型中进行训练和检测,并没有合理的利用统计特征中蕴含的知识,影响了协议识别系统的性能。特别是随着网络协议越来越丰富,协议识别系统需要处理更多的统计特征,使得基于统计特征的协议识别技术面临更大的挑战。
发明内容
(一)要解决的技术问题
本发明所要解决的技术问题是:如何提供一种基于统计特征的协议识别方法,能够更好地利用蕴含在大量统计特征中的知识,提升基于统计特征的协议识别系统的性能,以应对迅速增多的协议所带来的挑战。
(二)技术方案
为了解决上述问题,本发明提供了一种基于多级决策树的协议识别方法,其特征在于,包括步骤:S1.对网络流统计特征进行l级分类;S2.根据所提取的网络流统计特征自身的分类特点,训练l级决策树;S3.利用训练得到的l级决策树识别背景流量中的协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210246438.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗肌肉酸痛的药剂
- 下一篇:一种抗蠕变聚酯及其制备方法