[发明专利]一种基于规则优化的P2P流量混合识别方法有效
申请号: | 201910978511.3 | 申请日: | 2019-10-15 |
公开(公告)号: | CN111079778B | 公开(公告)日: | 2023-05-23 |
发明(设计)人: | 刘怡俊;吴荣华;叶武剑;王峰;李学易 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06N3/0464;G06N3/09;H04L67/1074;H04L67/1001;H04L9/40 |
代理公司: | 广东广信君达律师事务所 44329 | 代理人: | 杨晓松 |
地址: | 510062 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 规则 优化 p2p 流量 混合 识别 方法 | ||
1.一种基于规则优化的P2P流量混合识别方法,其特征在于,包括以下步骤:
S1.使用Wireshark软件抓取网络流量数据,抓取成功后导出;
S2.对抓取到的数据进行预处理;
S3.构建并训练P2P流量细粒度分类器;
S4.通过步骤S3训练好的P2P流量细粒度分类器识别得到一部分各类别的P2P流量以及剩余一部分未知流量traffic1;
S5.利用启发式规则识别步骤S4剩余的一部分未知流量;
S6.最后得出最终的各类别的P2P流量以及非P2P流量;
步骤S5中,所述启发式规则包括连接启发式规则、细粒度启发式规则以及模式启发式规则;
利用启发式规则识别出步骤S4剩余一部分未知流量traffic1的具体过程如下:
S5-1.利用步骤S4分类好的各类别P2P流量构成连接启发式规则,对剩余未知流量traffic1进行识别,得到正确分类的P2P流量以及仍是未知的剩余流量traffic2;
S5-2.将步骤S5-1得到的剩余未知流量traffic2输入到细粒度启发式规则,得到更多正确分类的P2P流量和剩余未知流量traffic3;
S5-3.采用模式启发式规则对步骤S5-2得到的剩余未知流量traffic3进行分类,得到正确分类的P2P流量和非P2P流量;
S5-4.最后用模式启发式规则对深度学习细粒度分类器得到的各类别P2P流量进行纠正,得到最终分类结果;
所述连接启发式规则具体为:
如果数据包的源{IP,端口}对或目标{IP,端口}对等于其中一个目标{IP,端口}在监听表中,包含此包的流被分类为P2P;
如果数据包的源{IP,端口}对或目标{IP,端口}对与任何源{IP,端口}对相邻在源表中,包含此包的流也被分类为P2P;
所述细粒度启发式规则具体为:
整合常用的默认端口,包括:
TCP\IP协议规定Web采用80号端口,FTP采用20、21号端口,SMTP/POP3邮件服务采用25、110号端口,1024-49151范围内的端口号给相关应用注册使用,49152-65535为动态端口;
以及常用的字符串模式,包括:
P2P应用在数据下载时,Gnutella、FastTrack、BitTorrent、eDonkey和eMule流量:
Gnutella流量中,TCP/IP包头后的第一个字符串为“Gnutella”、“GET”或“HTTP”;如果第一个字符串是“GET”或“HTTP”,必定有一个域包含下面一种字符串:User-Agent:name或UserAgent:Name;其中Name是下面其中之一:LimeWire,Bear-Share,Gnucleus,MorpheusOS,XoloX,MorpheusPE,gtkgnutella,Acquisition,Mutella-0.4.1,MyNapster,Mutella-0.4,Qtella,AquaLime,NapShare,Comeback,Go,PHEX,SwapNut,Mutella-0.4.0,Shareaza,Mutella-0.3.9b,Morpheus,FreeWire,Openext,Mutella-0.3.3,Phexo;
FastTrack流量中,TCP/IP包头后的第一个字符串为“Gnutella”,“GET”或“HTTP”;如果第一个字符串是“GET”或“HTTP”,必定有一个域包含下面一种字符串:User-Agent:Name、UserAgent:Name或Server:Name;其中Name是下面其中之一:KazaaLiteToolsK++,KazaaLiteResurrection,iMeshLight,TrustyFiles,Mldonkey,XoloX,Kazaa,Grokster,KazaaGhost,JubsterMP3Finder,Mammoth,mldonkey,iSwipe,Poisoned,XFactor,Apollon,KCeasy,Mammoth,m1Mac,iMeshLight,gift;
BitTorrent流量中,TCP握手的BitTorrent包头信息具有以下格式:
acharacter(1byte)astring(19byte)
第一个字节为固定的字符,值为‘19’,字符串的值为‘BitTorrentprotocol’;基于此特征总结出:IP/TCP头后第一个字节是19(0x13),随后的19字节为:
BitTorrentProtocol;
BitTorrent使用UDP来传输数据时,每一个UDP数据包的前3个字节都为“0x640x310x3a”,通过3个字节标识BitTorrent的UDP数据包;
eDonkey和eMule流量中:
(1数据包中TCP报头之后第一个字节为0xe3或0xc5;接下来的四个字节为消息长度MessageLength,其值应满足如下等式:
MessageLength=IP报头中的总长度–IP报头长度–TCP报头长度-5
(2若第一个字节为0xe3,则第6个字节为0x01、0x4c、0x46、0x16、0x49、0x54、0x55中的一个;若为0xc5,则第6个字节为0x01、0x02、0x40、0x60、0x61、0x81、0x82、0x85、0x87中的一个。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910978511.3/1.html,转载请声明来源钻瓜专利网。