[发明专利]基于支持向量机的实时多应用网络流量识别方法有效

申请号：	201410313090.X	申请日：	2014-07-02
公开（公告）号：	CN104052639A	公开（公告）日：	2014-09-17
发明（设计）人：	刘琚;马衍庆;乔美华;于智源;郭志鑫	申请（专利权）人：	山东大学
主分类号：	H04L12/26	分类号：	H04L12/26
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	李健康
地址：	250100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于支持向量实时应用网络流量识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及一种网络流量识别方法，属于网络测量技术领域。

背景技术

随着计算机网络技术的飞速发展和信息时代的到来，互联网的不断普及也引发了网络拥塞、P2P应用大肆抢占带宽和网络安全等问题，网络运营商和网络服务提供商需要采用一种合适的网络测量方法对网络进行管理。近年来在学术和应用领域越来越关注网络流量识别方法的研究，也越来越关注流量识别的可行性和有效性，即如何快速地处理海量的数据和如何正确地识别网络中的各种应用。因此，流量识别方法应该既要简单有效，又要灵活且应用面广。

现有的网络流量识别方法主要分为四大类：基于端口映射的流量识别方法、基于深度报文检测的流量识别方法、基于行为特征的流量识别方法和基于机器学习的流量识别方法。随着网络技术的不断发展和网络应用的不断推陈出新，基于端口映射、深度报文检测、行为特征的流量识别方法存在越来越多的限制和缺陷。如今学术界将重点放在了基于机器学习的流量识别方法上，这种方法利用机器学习的数据挖掘能力，从网络流量庞大、复杂的数据中提取隐含的、潜在的有效特征信息。此类方法的关键是选择合理的流量特征和选择合适的机器学习算法。然而，研究主要集中在非实时性的流量识别上，即先收集很长一段时间的网络流数据，再对其进行分类识别，这无法识别出当前用户对网络的使用情况。目前，实时网络流量识别方法中，有些方案将网络流开始建立时的前若干个数据包作为特征进行识别，此类方法虽然简单快捷，但需要捕捉网络流开始建立的时间点，如果错过就很难再识别出结果。还有些方案将从网络流生命周期的不同时间点选择若干个连续的数据包组(如25个数据包为一组)作为特征进行识别，此类方法需要考虑网络流的生命周期，如果生命周期很长则识别所需的时间也会增长。这些方案都过于依赖网络流的本身，灵活性差，有一定的限制。

发明内容

本发明针对现有网络流量识别方法存在的不足，提供一种基于支持向量机(SVM)的可实时识别网络环境中多种应用类型的方法，此方法采用“时间窗口法”只从网络流的数据包头获取简单有效的特征，并选用算法复杂度低、运算量小的支持向量机算法，使其不仅能够快速建模生成分类器，而且在小样本情况下就能达到很高的识别准确率，还可以在任何时间点对网络流的多种应用进行测量识别，满足实时多应用的需求。“时间窗口法”是指对网络流连续统计一段时间，并根据此时间段内的网络流量与平均值偏离程度大小划分为“峰值区”和“稳定区”，由时间窗口内的数据生成识别所需的特征。

本发明提出的基于支持向量机的网络流量识别方法，包括支持向量机的离线训练和支持向量机的在线实时分类步骤：

支持向量机的离线训练步骤包括：

(1)利用抓包工具从网络线路中抓取数据包；

(2)对数据包进行统计，得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向；

(3)从获取的数据中抽样，选择网络应用正常运行时的样本，分别对样本的应用类别进行标注；

(4)根据“时间窗口法”，从任意的时间点开始，设定一段时间，根据该段时间内连续采集的网络流量与平均值的偏离程度，将高于平均值1.6倍的流量称为“峰值区”，处于平均值0.6～1.4倍区间的流量称为“稳定区”，由此时间段内的网络流量生成多种特征值；

(5)采用支持向量机方法对样本特征值进行训练学习，生成分类规则，构建分类器模型。

支持向量机的在线实时分类步骤包括：

(1)利用抓包工具从网络线路中抓取数据包；

(2)对数据包进行统计，得到网络流的包数、包长、源地址、目的地址、传输层协议和上行或下行的流向；

(3)采用支持向量机的离线训练步骤的步骤(4)相同的方法生成多种特征值；

(4)采用支持向量机的离线训练步骤的步骤(5)已经生成的分类规则和分类器模型，对网络流的特征值进行分类识别，得出识别结果。