[发明专利]基于负载映射与随机森林的非加密流量识别方法在审

专利信息
申请号: 201810449191.8 申请日: 2018-05-11
公开(公告)号: CN108737290A 公开(公告)日: 2018-11-02
发明(设计)人: 邹学强;张玉;包秀国;金宇菲;张建忠 申请(专利权)人: 南开大学;国家计算机网络与信息安全管理中心
主分类号: H04L12/851 分类号: H04L12/851
代理公司: 泰州地益专利事务所 32108 代理人: 谭建成
地址: 300350*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机森林 映射 随机森林分类器 加密流量识别 加密流量 流量负载 向量空间 预处理 应用类型识别 自然语言处理 时间复杂度 特征字符串 预处理阶段 准确度 分类阶段 加密负载 建模阶段 流量识别 模型分类 特征字符 训练集合 移动应用 可变 向量 局限 引入 转化
【说明书】:

发明针对于非加密流量提出了一种移动应用流量识别方法。方法结合向量空间映射与随机森林分类器,包括预处理阶段,用于将流量负载进行预处理;随机森林分类器建模阶段,将流量负载映射到向量空间,利用流量训练集合建立随机森林模型;分类阶段,待识别流量通过随机森林模型分类。常见的非加密流量识别方法,局限于寻找固定长度或可变长度的特征字符串,为此花费了巨大的精力。本发明引入自然语言处理领域的方法。将非加密负载转化为向量,克服了寻找特征字符时间复杂度大的特点。本发明可以用于非加密流量的应用类型识别,具有较高的识别准确度。

技术领域

本发明涉及流量分类与识别技术领域,尤其涉及一种非加密移动应用流量识别方法。

背景技术

网络流量识别在网络管理中处于十分重要的位置,是网络监管、带宽计费、QoS等多方面的基础。近几年,移动设备的数量呈现爆炸式增长,越来越深入到人们的生活中。在这些设备上,人们下载安装应用程序,这些应用程序产生的流量称之为移动应用流量。这些流量增长得十分迅速,并且包含了网络环境中的重要信息,因此对这些流量进行分析变得十分有意义,而流量识别作为流量分析的基础,吸引了学术界的许多目光。

移动应用程序大多使用HTTP/HTTPS等协议,目前流量识别的方式主要有3种:基于端口的识别方法、基于机器学习的识别方法、基于数据包负载的识别方法(DPI)。

基于端口的识别方法是将一些熟知端口作为识别规则,如80端口对应HTTP协议,53号端口对应DNS协议。但由于大多数移动应用都采用HTTP/HTTPS协议,流量端口基本固定为80或443,基于端口识别的方案不能很好地识别移动应用流量。

基于机器学习的识别方法通常是先按照五元组的方式提取出数据流,所谓数据流就是指在一定时间间隔内报文的集合,这些报文有着相同的源IP、目的IP、源端口、目的端口和协议。而后可以通过提取流特征,如数据包到达间隔、数据包大小等,完成数据包到特征空间的映射,进而可以建立如贝叶斯、SVM、决策树等分类器以进行分类。或是采用K-Means、DBSCAN等无监督方法进行聚类,预测类别。但同样是由于移动应用大都采用HTTP/HTTPS协议,流特征会较为相近,常用的流特征将近250个,如何选择有效的特征成为一个复杂的问题。

基于DPI的识别方法依赖于报文负载内容,将位置固定或不固定的关键字符串作为应用签名。通过字符串匹配进行流量识别。如何找到具有代表性的匹配模式,在很大程度上决定了这种分类方法的识别准确度。不同学者提出了不同的方法来对寻找特征模式,但过程相对较为复杂。

本发明基于DPI的识别方法,仅针对使用HTTP协议的应用流量进行识别。依赖于HTTP负载报文,但不采用提取特征字符串的方式,而是使用自然语言处理领域中的方法,将负载映射为向量,建立随机森林分类器进行应用类别预测。

发明内容

本发明提供一种非加密移动应用流量识别方法,不必提取特征字符串,而是将负载映射为向量,具有较为准确的识别率。

本发明提供一种基于随机森林的非加密移动应用流量识别方法。HTTP流量负载为明文,可以将其视为文本进行处理,引入自然语言处理中的向量空间模型,实现负载到向量的映射。

图1展示了本方法的框架图,在预处理阶段,截取HTTP报文负载中“\r\n\r\n”之前的内容,该内容包含了HTTP的请求行与请求报文,拥有足够的信息量可以用于分类器的建立。

对每条负载进行分词处理,可以简单地使用空格、斜杠等分隔符进行分割,将长度过短的单词删除。将单词存入单词集合W={w1,w2,...,wn},W也可称之为词袋(bagofwords)。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810449191.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top