[发明专利]基于负载映射与随机森林的非加密流量识别方法在审
申请号: | 201810449191.8 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108737290A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 邹学强;张玉;包秀国;金宇菲;张建忠 | 申请(专利权)人: | 南开大学;国家计算机网络与信息安全管理中心 |
主分类号: | H04L12/851 | 分类号: | H04L12/851 |
代理公司: | 泰州地益专利事务所 32108 | 代理人: | 谭建成 |
地址: | 300350*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 随机森林 映射 随机森林分类器 加密流量识别 加密流量 流量负载 向量空间 预处理 应用类型识别 自然语言处理 时间复杂度 特征字符串 预处理阶段 准确度 分类阶段 加密负载 建模阶段 流量识别 模型分类 特征字符 训练集合 移动应用 可变 向量 局限 引入 转化 | ||
本发明针对于非加密流量提出了一种移动应用流量识别方法。方法结合向量空间映射与随机森林分类器,包括预处理阶段,用于将流量负载进行预处理;随机森林分类器建模阶段,将流量负载映射到向量空间,利用流量训练集合建立随机森林模型;分类阶段,待识别流量通过随机森林模型分类。常见的非加密流量识别方法,局限于寻找固定长度或可变长度的特征字符串,为此花费了巨大的精力。本发明引入自然语言处理领域的方法。将非加密负载转化为向量,克服了寻找特征字符时间复杂度大的特点。本发明可以用于非加密流量的应用类型识别,具有较高的识别准确度。
技术领域
本发明涉及流量分类与识别技术领域,尤其涉及一种非加密移动应用流量识别方法。
背景技术
网络流量识别在网络管理中处于十分重要的位置,是网络监管、带宽计费、QoS等多方面的基础。近几年,移动设备的数量呈现爆炸式增长,越来越深入到人们的生活中。在这些设备上,人们下载安装应用程序,这些应用程序产生的流量称之为移动应用流量。这些流量增长得十分迅速,并且包含了网络环境中的重要信息,因此对这些流量进行分析变得十分有意义,而流量识别作为流量分析的基础,吸引了学术界的许多目光。
移动应用程序大多使用HTTP/HTTPS等协议,目前流量识别的方式主要有3种:基于端口的识别方法、基于机器学习的识别方法、基于数据包负载的识别方法(DPI)。
基于端口的识别方法是将一些熟知端口作为识别规则,如80端口对应HTTP协议,53号端口对应DNS协议。但由于大多数移动应用都采用HTTP/HTTPS协议,流量端口基本固定为80或443,基于端口识别的方案不能很好地识别移动应用流量。
基于机器学习的识别方法通常是先按照五元组的方式提取出数据流,所谓数据流就是指在一定时间间隔内报文的集合,这些报文有着相同的源IP、目的IP、源端口、目的端口和协议。而后可以通过提取流特征,如数据包到达间隔、数据包大小等,完成数据包到特征空间的映射,进而可以建立如贝叶斯、SVM、决策树等分类器以进行分类。或是采用K-Means、DBSCAN等无监督方法进行聚类,预测类别。但同样是由于移动应用大都采用HTTP/HTTPS协议,流特征会较为相近,常用的流特征将近250个,如何选择有效的特征成为一个复杂的问题。
基于DPI的识别方法依赖于报文负载内容,将位置固定或不固定的关键字符串作为应用签名。通过字符串匹配进行流量识别。如何找到具有代表性的匹配模式,在很大程度上决定了这种分类方法的识别准确度。不同学者提出了不同的方法来对寻找特征模式,但过程相对较为复杂。
本发明基于DPI的识别方法,仅针对使用HTTP协议的应用流量进行识别。依赖于HTTP负载报文,但不采用提取特征字符串的方式,而是使用自然语言处理领域中的方法,将负载映射为向量,建立随机森林分类器进行应用类别预测。
发明内容
本发明提供一种非加密移动应用流量识别方法,不必提取特征字符串,而是将负载映射为向量,具有较为准确的识别率。
本发明提供一种基于随机森林的非加密移动应用流量识别方法。HTTP流量负载为明文,可以将其视为文本进行处理,引入自然语言处理中的向量空间模型,实现负载到向量的映射。
图1展示了本方法的框架图,在预处理阶段,截取HTTP报文负载中“\r\n\r\n”之前的内容,该内容包含了HTTP的请求行与请求报文,拥有足够的信息量可以用于分类器的建立。
对每条负载进行分词处理,可以简单地使用空格、斜杠等分隔符进行分割,将长度过短的单词删除。将单词存入单词集合W={w1,w2,...,wn},W也可称之为词袋(bagofwords)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810449191.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储多路径负载均衡方法及系统
- 下一篇:一种网络流量表示的方法及装置