[发明专利]一种高速主干网中Tor网桥的快速识别方法有效

申请号：	202011003470.5	申请日：	2020-09-22
公开（公告）号：	CN112235254B	公开（公告）日：	2023-03-24
发明（设计）人：	吴桦;郭树一;程光	申请（专利权）人：	东南大学
主分类号：	H04L9/40	分类号：	H04L9/40;G06F18/214;G06F17/18
代理公司：	南京众联专利代理有限公司 32206	代理人：	叶涓涓
地址：	211189 ***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种高速主干 tor 快速识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种高速主干网中Tor网桥的快速识别方法，其特征在于，包括如下步骤：

(1)采集用于模型训练的Tor流量数据和普通流量数据并保存，具体包括如下子步骤：

(1.1)在主机端安装Tor Browser软件，选择使用网桥建立通信链路；

(1.2)启动应用开始进行Tor流量数据采集；

(1.3)使用Tor Browser进行网络访问；

(1.4)网页加载完毕后停止采集，存储当前采集的主机端与网桥之间的Tor流量数据文件；

(1.5)启动应用开始进行普通流量数据采集；

(1.6)使用常见应用进行操作；

(1.7)在操作完成后停止采集，存储当前采集的普通流量数据文件；

(1.8)重复(1.2)～(1.7)操作，直到采集到足够多数量的流量数据；

(2)从原始数据中提取能够用于完整流量数据识别分类的特征，并进行特征选择，保留能够用于记录识别分类的特征后，从原始数据中提取训练数据，进行机器学习的模型训练，具体包括如下子步骤：

(2.1)首先使用步骤(1)中采集的完整的流量数据进行特征的提取和模型的训练，选择使用准确率高的随机森林算法；

(2.2)在进行特征选择时使用随机森林算法中基于基尼指数的方法进行特征重要性的评估，基尼指数的计算方法如下：

其中k代表k个类别，p_k代表类别k的样本权重；

那么特征X_j在节点m上的重要性，即节点m分枝前后的基尼指数变化量为：

其中GI_m表示分枝前节点的基尼指数，GI_l和GI_r分别表示分枝后两个新节点的基尼指数；

(2.3)综合考虑特征重要性和在记录中的可用性，选择合适的可用特征；所述步骤(2.3)中合适的可用特征如下表所示：

；

(2.4)将步骤(1)中采集的流量数据作为原始数据，经过之前的特征工程从中提取训练数据，使用随机森林算法进行模型训练

(3)在高速主干网路由处进行流量数据的采样，然后使用多重Count Bloom Filter算法对采样获得的数据包进行处理，获得记录，具体包括如下子步骤：

(3.1)在高速主干网路由处设置数据包采样比例进行流量采样；

(3.2)使用MCBF算法处理采样后的数据包，得到统计结果；所述MCBF算法为多重CountBloom Filter算法；步骤(3.2)具体包括如下子步骤：

(3.2.1)对于采样后的每个数据包，将数据包的{源IP地址，端口号}和{目的IP地址，端口号}分别作为哈希函数的输入，两次输入分别得到多个输出映射到MCBF对应的位置中；

(3.2.2)在每个映射到的位置中都存在一个12字节的数据结构，用于存储该数据包中与特征相关的信息，如果该数据包满足对应的信息，则在数据结构对应的位置上增加1，否则不变；步骤(3.2.2)中，所需存储的信息如下表所示：

(3.2.3)当到达设定的阈值θ时，提取存储的信息，然后进行特征值的计算；本步骤中将客户端发出的数据包数量记录最少的位置所存储的信息作为被提取的信息；

(3.2.4)对提取的信息进行计算，得到记录的特征统计结果；每个位置存储的信息与特征的计算对应关系如下表所示：

其中F1的值由Counter12与阈值θ决定，如果Counter12中的值大于1/2θ，则将该条记录的F1标记为1

(4)将步骤(3)中获得的采样统计结果输入步骤(2)中训练完成的模型处理记录，进行网桥的识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于东南大学，未经东南大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011003470.5/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载