[发明专利]利用数据流头部特征的TCP流量在线识别方法及装置有效
申请号: | 201010152750.2 | 申请日: | 2010-04-22 |
公开(公告)号: | CN101814977A | 公开(公告)日: | 2010-08-25 |
发明(设计)人: | 纪越峰;顾仁涛;王宏祥 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L1/00 | 分类号: | H04L1/00;H04L12/56;H04L29/06 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 利用 数据流 头部 特征 tcp 流量 在线 识别 方法 装置 | ||
技术领域
本发明涉及通信技术领域,尤其涉及一种流量识别的方法和装置。
背景技术
网络和业务的复杂化需要人们能够很好的对网络的运行和传送内容进行更好的管理和监控。首先,从 业务上看,业务多样化趋势加剧,使得区分网络待传送业务的服务质量(QoS)需求成为挑战。网络应该尽 量满足业务的QoS,然而满足QoS的前提是获取分析QoS。这就需要我们能够对网络业务进行在线分类, 以便在传送中有效的区分不同业务,根据既定策略对流量进行疏导,测量应用层业务性能以及用户业务的 计费。其次,从网络规划和优化上看,网络管理员需要对网络中现有流量进行成分分析,以便于根据目前 的承载情况优化现有网络结构或者规划新的网络建设。后者不需要在线识别方式,可采用离线的方式加以 分析。另外,从网络安全角度来看,应该对网络中存在的有害流量,如蠕虫病毒等以消灭,抑制其传播, 这也同样需要流量识别技术作为支撑。
目前采用的流量识别方法主要基于传输层端口和应用层载荷(签名)。由于端口号的滥用,尤其是P2P 业务采用动态端口号甚至采用HTTP协议约定的80端口作为传输通道,使得单纯基于传输层端口号进行 业务识别的方法失去了有效性。而针对载荷特征的方法,由于涉及较为复杂的操作,不适用于高速骨干网 的流量识别。而采用人工智能方法进行流量识别的方法,又由于其计算复杂性和固有的串行处理的特性, 不适于网络设备的硬件实现,因而限制了其在高速骨干网的应用。
为了适应目前和未来高速骨干网的需要,流量识别技术迫切的需要满足以下几点:1)参数选择上避 免采用端口或者净荷作为主要特征;2)算法设计上要保证流量的在线识别;2)处理方法上要具有并行化 处理的特性,且易于硬件实现。
发明内容
本发明的目的是提供一种利用数据流头部特征的TCP流量在线识别方法及装置。通过提取一个数据流 中头部若干包的包长、修正的包间隔时间等参数,然后与事先提取的协议特征库进行比对,获得该数据流 所属的类型。本发明提供的方法包括以下步骤:
步骤1,前期真实流量数据的获取:采集多个网络真实流量数据集,这些流量数据集最好来自不同地 点和不同时间;
步骤2,前期真实流量的数据流梳理:通过查找数据流的起始数据包,如TCP的Set-up包,以及{源 地址、目的地址、源端口、目的端口、传输层协议类型}五元组将步骤1所得流量数据集分离为不同的TCP 流,这样流量数据集就变为了TCP流的集合;
步骤3,对前期真实TCP流集合进行人工分类:使用净荷检查等方法,对步骤2得到的TCP流集合进 行手工的流量识别分类,使得步骤2的每一条数据流都与一种协议类型相对应;
步骤4,提取TCP流集合的包特征:得到每一条流中数据包的包长、包的修正间隔时间、传输方向等 特征,并按照数据包在该流的先后顺序构建一个特征序列。需要注意的是,本步骤采集的参数是修正的间 隔时间,并不是简单的相邻两数据包在测量点到达时间之差,而是两数据包到达时间的差值减去数据流两 端点往返传送时延的估计值。具体实施例将对修正间隔时间进行详细阐述;
步骤5,建立协议特征库:根据步骤3所得的数据流协议类型和步骤4所得的数据流特征,建立协议 特征库。其主要工作是建立若干组矩阵,每一个矩阵存储同一种协议数据流的同一序号数据包特征的联合 概率密度。这样每一种协议就有一组联合概率密度矩阵与之对应,其中存储着该类协议数据流头部若干数 据包的特征的联合概率密度;
步骤6,提取待分析数据流的数据包特征:按照数据包在该数据流的先后顺序,依次提取这些数据包 的特征,组成一个特征序列;
步骤7,比对协议特征库:将步骤6所得到的特征序列与步骤5所得到的协议特征库进行比对,获得 该数据流属于某种协议的概率;
步骤8,协议类型分类仲裁:根据步骤7所得到的概率值,最大概率值所对应的协议类型即判为该数 据流所属的协议类型。
本发明还提供了一种基于本方法的流量在线识别装置,其至少包括:
数据流分离模块,从监测流量中按照{源地址、目的地址、源端口、目的端口、传输层协议类型}五元 组进行数据流分离,以便于提取特征和后期的流量管理;
属性提取模块,从数据流中按顺序提取头部若干个数据包的特征,组成特征序列;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010152750.2/2.html,转载请声明来源钻瓜专利网。