[发明专利]一种高速主干网中Tor网桥的快速识别方法有效
申请号: | 202011003470.5 | 申请日: | 2020-09-22 |
公开(公告)号: | CN112235254B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 吴桦;郭树一;程光 | 申请(专利权)人: | 东南大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06F18/214;G06F17/18 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 叶涓涓 |
地址: | 211189 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 高速 主干 tor 快速 识别 方法 | ||
1.一种高速主干网中Tor网桥的快速识别方法,其特征在于,包括如下步骤:
(1)采集用于模型训练的Tor流量数据和普通流量数据并保存,具体包括如下子步骤:
(1.1)在主机端安装Tor Browser软件,选择使用网桥建立通信链路;
(1.2)启动应用开始进行Tor流量数据采集;
(1.3)使用Tor Browser进行网络访问;
(1.4)网页加载完毕后停止采集,存储当前采集的主机端与网桥之间的Tor流量数据文件;
(1.5)启动应用开始进行普通流量数据采集;
(1.6)使用常见应用进行操作;
(1.7)在操作完成后停止采集,存储当前采集的普通流量数据文件;
(1.8)重复(1.2)~(1.7)操作,直到采集到足够多数量的流量数据;
(2)从原始数据中提取能够用于完整流量数据识别分类的特征,并进行特征选择,保留能够用于记录识别分类的特征后,从原始数据中提取训练数据,进行机器学习的模型训练,具体包括如下子步骤:
(2.1)首先使用步骤(1)中采集的完整的流量数据进行特征的提取和模型的训练,选择使用准确率高的随机森林算法;
(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估,基尼指数的计算方法如下:
其中k代表k个类别,pk代表类别k的样本权重;
那么特征Xj在节点m上的重要性,即节点m分枝前后的基尼指数变化量为:
其中GIm表示分枝前节点的基尼指数,GIl和GIr分别表示分枝后两个新节点的基尼指数;
(2.3)综合考虑特征重要性和在记录中的可用性,选择合适的可用特征;所述步骤(2.3)中合适的可用特征如下表所示:
特征 含义 F1 是否多于一半的数据包具有时间戳 F2 客户端发出的非空包与包总数的比值 F3 服务器端发出的非空包与包总数的比值 F4 客户端发出的空包与服务器端发出的非空包的比值 F5 服务器端发出的空包与客户端发出的非空包的比值 F6 客户端发出的非空包与数据包总数的比值 F7 服务器端发出的非空包与数据包总数的比值 F8 客户端发出的PSH包占数据包总数的比例 F9 服务器端发出的PSH包占数据包总数的比例 F10 客户端发出的长度为0~50的包占数据包总数的比例 F11 客户端发出的长度为50~200的包占数据包总数的比例 F12 客户端发出的长度大于1200的包占数据包总数的比例 F13 服务器端发出的长度为50~200的包占数据包总数的比例 F14 服务器端发出的长度大于1200的包占数据包总数的比例
;
(2.4)将步骤(1)中采集的流量数据作为原始数据,经过之前的特征工程从中提取训练数据,使用随机森林算法进行模型训练
(3)在高速主干网路由处进行流量数据的采样,然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理,获得记录,具体包括如下子步骤:
(3.1)在高速主干网路由处设置数据包采样比例进行流量采样;
(3.2)使用MCBF算法处理采样后的数据包,得到统计结果;所述MCBF算法为多重CountBloom Filter算法;步骤(3.2)具体包括如下子步骤:
(3.2.1)对于采样后的每个数据包,将数据包的{源IP地址,端口号}和{目的IP地址,端口号}分别作为哈希函数的输入,两次输入分别得到多个输出映射到MCBF对应的位置中;
(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构,用于存储该数据包中与特征相关的信息,如果该数据包满足对应的信息,则在数据结构对应的位置上增加1,否则不变;步骤(3.2.2)中,所需存储的信息如下表所示:
(3.2.3)当到达设定的阈值θ时,提取存储的信息,然后进行特征值的计算;本步骤中将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息;
(3.2.4)对提取的信息进行计算,得到记录的特征统计结果;每个位置存储的信息与特征的计算对应关系如下表所示:
特征 计算方法 F1 如果Counter12中的值大于1/2θ,则F1标记为1,否则为0 F2 Counter2/Counter1 F3 Counter4/Counter3 F4 (Counter1-Counter2)/Counter4 F5 (Counter3-Counter4)/Counter2 F6 Counter2/(Counter1+Counter3) F7 Counter4/(Counter1+Counter3) F8 Counter5/(Counter1+Counter3) F9 Counter6/(Counter1+Counter3) F10 Counter7/(Counter1+Counter3) F11 Counter8/(Counter1+Counter3) F12 Counter9/(Counter1+Counter3) F13 Counter10/(Counter1+Counter3) F14 Counter11/(Counter1+Counter3)
其中F1的值由Counter12与阈值θ决定,如果Counter12中的值大于1/2θ,则将该条记录的F1标记为1
(4)将步骤(3)中获得的采样统计结果输入步骤(2)中训练完成的模型处理记录,进行网桥的识别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011003470.5/1.html,转载请声明来源钻瓜专利网。