[发明专利]Tor匿名通信流量应用分类的方法有效
申请号: | 201410370944.8 | 申请日: | 2014-07-30 |
公开(公告)号: | CN104135385B | 公开(公告)日: | 2017-05-24 |
发明(设计)人: | 蒋平;许勇;赵琛;史明文;汪兆斌 | 申请(专利权)人: | 南京市公安局 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L29/06 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙)11350 | 代理人: | 汤东凤 |
地址: | 210005 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种Tor匿名通信流量应用分类的方法,主要解决Tor匿名通信流量中上层应用类型信息获取的问题,涉及到特征选择、样本预处理以及流量建模等相关技术。该方法首先利用Tor的数据包调度机制,定义流突发段概念,并以流突发段的体积值和方向作为分类特征。然后基于K‑均值聚类算法和多序列比对算法对数据样本进行预处理,通过数值符号化和插入空隙的方式来解决数据样本过拟合和长度不一致问题。最后,使用Profile隐马尔科夫模型对不同应用的上行和下行Tor匿名通信流量分别进行建模,提出一种启发式算法快速建立Profile隐马尔可夫模型。在具体分类时,将待分类网络流量的特征代入不同应用的Profile隐马尔可夫模型中,分别计算出上行和下行流量模型对应的概率,并以最大联合概率值来决定待分类的Tor匿名通信流量所包含的上层应用类型。 | ||
搜索关键词: | tor 匿名 通信 流量 应用 分类 方法 | ||
【主权项】:
一种Tor匿名通信流量应用分类的方法,其特征是包括步骤:1)利用Tor的数据包调度机制,定义流突发段概念,并以流突发段的体积值和方向作为分类特征;2)基于K‑均值聚类算法和多序列比对算法对分类特征的数据样本进行预处理,通过数值符号化和插入空隙的方式来解决数据样本过拟合和长度不一致问题;经过数据样本预处理,数值已经符号化,是由字母和空位组成,且长度是相同的;3)使用Profile隐马尔科夫模型对不同应用的上行和下行Tor匿名通信流量分别进行建模;4)最后,将待分类网络流量的特征代入不同应用的Profile隐马尔可夫模型中,分别计算出上行和下行流量模型对应的概率,并以最大联合概率值来决定待分类的Tor匿名通信流量所包含的上层应用类型;所述步骤3)中,使用启发式方法建立Tor匿名通信流量的Profile隐马尔可夫模型,方法如下:Tor匿名通信流量的Profile隐马尔可夫模型由Match、Insert、Delete三种状态组成;为确定Match、Insert、Delete状态,首先对数据样本进行排列,分类特征的每一特征向量为一行,构成样本矩阵;考察样本矩阵的每一列,每一列即对应Profile隐马尔可夫模型中的一个Match或Insert状态;确定每一列对应的具体的状态的方法为:如果该列中字母出现的数量超过一半,则为Match状态,如果该列中字母出现的数量没有超过一半,为Insert状态;Delete状态则由Match状态对应的列中的空位决定,空位越多,则表示从前一个状态转移到此Delete状态的概率越大;由于Delete状态不产生输出,因而无需计算其对应的输出概率,而Insert状态的输出为随机输出,其可观察字符集包括样本中所有出现的字符,且输出概率为等概率分布,即对于所有的可观察字符,其产生的概率均为1/C,C为字符集合大小;所以确定Match、Insert和Delete状态后,仅计算状态间的转移概率以及Match状态的输出概率,方法为:首先统计状态间的转移次数和Match状态对应的列中各字符出现的数量;转移概率计算为:状态i转移到状态j的次数除以状态i转移的总次数;输出概率计算为:第i个Match状态输出字符a的次数除以该状态输出的所有字符的总数量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京市公安局,未经南京市公安局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410370944.8/,转载请声明来源钻瓜专利网。