[发明专利]P2P网络流量检测方法无效
申请号: | 201110237498.X | 申请日: | 2011-08-18 |
公开(公告)号: | CN102291279A | 公开(公告)日: | 2011-12-21 |
发明(设计)人: | 丁要军;蔡皖东 | 申请(专利权)人: | 西北工业大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种P2P网络流量检测方法,用于解决现有的网络流量检测方法检测精度差的技术问题。技术方案是采用两个阶段来训练分类器,首先使用半监督聚类来近似估计测试样本中的正例样本数N的值,然后根据N的值来进一步训练TSVM模型。与背景技术相比,N的值更加接近真实值,使得训练出的TSVM分类模型具有很好的稳定性和鲁棒性,提高了网络流量检测精度。本发明由于使用大量未标注数据参与训练分类模型,充分利用了半监督学习的优势,与传统的只使用标注数据训练模型的监督学习算法相比,准确性和稳定性更好。 | ||
搜索关键词: | p2p 网络流量 检测 方法 | ||
【主权项】:
1.一种P2P网络流量检测方法,其特征在于包括下述步骤:(a)使用流量采集卡在网关出口捕获网络流量,对捕获的网络流量进行数据包解析,并计算相应的流统计特征;(b)根据网络数据包的源IP地址、源端口、传输协议、目的端口、目的IP地址信息进行网络流重组,信息相同的数据包组成一个数据流;使用17-fileter对重组后的网络流进行标注,标注数据分为P2P协议和非P2P协议两类;(c)以数据流为单位提取统计特征,包括包大小、包到达时间间隔、流大小、流持续时间;协议已知的数据流加上协议类别标签,P2P协议数据流的标签为“1”,非P2P协议数据流的标签为“-1”,协议未知的数据流标签为“0”,每条数据流对应一个样本,用一个特征向量表示;将标注协议数据与未标注协议数据混合,使用K-Means聚类算法对混合数据聚类,生成两个聚类簇;(d)将步骤(c)得到的标注协议数据流样本和未标注协议数据流样本混合到一起构成训练集,标注协议数据流样本集用train_set表示,未标注协议数据流样本集用test_set表示;(e)使用K-Means聚类算法对步骤(d)中的train_set和test_set组成的混合训练集进行半监督聚类,生成两个聚类簇;分别计算两个簇中的包含的标注数据中P2P协议数据的比例,确定两个簇所属的类别;根据P2P协议簇中包含的样本个数来近似确定测试样本中的正例样本数N的值;(f)根据步骤(e)确定的测试样本中的正例样本数N的值,使用标注协议数据和未标注协议数据共同训练TSVM分类模型;TSVM的训练过程描述如下:Minimize over( y 1 * , . . . , y k * , w , b , ξ 1 , . . . , ξ n , ξ 1 * , . . . , ξ k * ) ]]>1 2 | | w | | 2 + C Σ i = 1 n ξ i + C * Σ j = 1 k ξ j * - - - ( 1 ) ]]> Subject to:
yi[w·xi+b]≥1-ξi∀ j = 1 k : ]]>y j [ w · x j * + b ] ≥ 1 - ξ j * ]]>∀ i = 1 n : ]]> ξi≥0∀ j = k : ]]>ξ j * ≥ 0 ]]> 式中,ξi和
是松弛变量,C是标注协议样本的影响因子,C*未标注协议样本的影响因子;(g)使用步骤(f)中训练的TSVM分类模型对网络数据流进行识别,判定是否为P2P网络流量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201110237498.X/,转载请声明来源钻瓜专利网。
- 上一篇:一种伺服丝杆进刀切削机构
- 下一篇:一种锥度离合器外罩定位夹具