[发明专利]一种基于决策树的HTTPS加密流量分类方法在审
申请号: | 201911034290.0 | 申请日: | 2019-10-29 |
公开(公告)号: | CN111030941A | 公开(公告)日: | 2020-04-17 |
发明(设计)人: | 朱国胜;邹洁;刘飞鸿;祁小云;曹扬晨 | 申请(专利权)人: | 武汉瑞盈通网络技术有限公司;武汉鸿名科技有限公司;湖北大学;赛尔网络有限公司 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L29/08;G06F16/35;G06K9/62 |
代理公司: | 武汉帅丞知识产权代理有限公司 42220 | 代理人: | 刘丹;朱必武 |
地址: | 430000 湖北省武汉市东湖新技术开发*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 决策树 https 加密 流量 分类 方法 | ||
1.一种基于决策树的HTTPS加密流量分类方法,其特征在于,所述方法包括如下步骤:
(1)通过网络封包分析软件对HTTPS加密流量进行抓取,获取SSL/TLS握手成功后加密传输的HTTPS应用数据包,即待分类数据包;
(2)对待分类数据包进行数据包标记,同时,通过特征工程对待分类数据包进行预处理,筛选出本方法数据集包含的15项网络流属性,同时利用已经确定的标签数据,提取出决策树样本全集;
(2.1)将Wireshark对网站进行分模块采集的数据包加上标签字段作为该样例的真实标记即该样例已经确定的标签数据;
(2.2)将Wireshark捕获的pcap数据包解析成json数组并存入表格文件中,通过数据预处理将属性值进行规范化,去掉网络流数据中属性值相同的特征,对缺失值进行均值处理;
(2.3)将用十六进制表示的tcp有效荷载及应用数据转换成相应的字符串长度;
(2.4)对网络数据流中的每个属性进行具体含义的分析,选取网络数据流中的时间相关特征、网络数据包中与字节长度相关的分组长度特征及端口特征得到了本方法数据集包含的15项网络流属性;
(3)将样本全集根据合适比例划分为训练集和测试集,基于决策树算法,将该方法选取的15项网络流属性作为输入向量并通过训练集建立决策树分类模型,实现目标网站模块内容分类;
(3.1)HTTPS加密网络数据流的样本全集为:S={(x1,y1),(x2,y2),…(xn,yn)},其中xi指样本属性,yi指对应的标签数据,i表示对应的样本序号;
(3.2)引入C4.5决策树算法模型,通过计算每个属性的信息增益率,从候选划分属性中找出信息增益高于平均水平的属性,再从中选择增益率最高的属性;
(3.3)使用训练集训练得到HTTPS加密流量分类模型;
(4)通过测试集对决策树分类模型进行有效评估,从而完善决策树分类模型,实现目标网站模块内容的精确分类;
(4.1)样本全集S={(x1,y1),(x2,y2),…(xn,yn)},其中yi表示xi的实际标记,定义决策树分类模型预测的结果是pi;
(4.2)定义分类正确的样本数占样本总数的比例精度:
(4.3)令TPi表示实际类型为i的样本中被分类模型预测正确的样本数,FPi表示实际类型为非i的样本中被分类模型误判为类型i的样本数量,FNi表示实际类型为i的样本中被分类模型误判为其他类型的样本数,则类型i的查准率P和查全率R分别定义为:和
(4.4)通过上述定义的模型性能评估指标,使用测试集对决策树分类模型进行评估。
2.如权利要求1所述的基于决策树的HTTPS加密流量分类方法,其特征在于:所述方法包括:对采集的数据包进行分析,选取15项网络流属性,将选取的字符型的属性转换为数字型属性进行数据预处理,最后将数据作为决策树的输入向量;选取的15项网络流属性如下表所示:
表1:网络流属性说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉瑞盈通网络技术有限公司;武汉鸿名科技有限公司;湖北大学;赛尔网络有限公司,未经武汉瑞盈通网络技术有限公司;武汉鸿名科技有限公司;湖北大学;赛尔网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911034290.0/1.html,转载请声明来源钻瓜专利网。