[发明专利]网络流量自动化特征挖掘方法有效
申请号: | 201310008027.0 | 申请日: | 2013-01-09 |
公开(公告)号: | CN103067300A | 公开(公告)日: | 2013-04-24 |
发明(设计)人: | 薛一波;袁振龙 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L12/811 | 分类号: | H04L12/811 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 王莹 |
地址: | 100084 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络流量 自动化 特征 挖掘 方法 | ||
1.一种网络流量自动化特征挖掘方法,其特征在于,包括步骤:
S1:网络流量数据的预处理;
S2:最高支持度频繁项挖掘;
S3:依据频繁项层次化迭代聚类;
S4:按层次分级输出有效特征组合。
2.如权利要求1所述的方法,其特征在于,S1包括:
S1.1:捕获网络流量信息;
S1.2:预处理捕获流量,提取其流量载荷特征和流特征;
S1.3:格式化打印输出已提取的载荷特征和流特征。
3.如权利要求2所述的方法,其特征在于,S1.1包括:
S1.1.1:利用Wireshark或者Tcpdump抓包软件或工具在本机或出口网关上捕获网络流量;
S1.1.2:根据流量过滤规则过滤出指定应用的网络流量。
4.如权利要求2所述的方法,其特征在于,S1.2包括:
S1.2.1:将已得到的网络流量输入libnids流量处理系统中;
S1.2.2:提取特定五元组网络流的特征,特征分为载荷特征和流特征,载荷特征为数据包载荷部分的字节值,流特征为网络流的统计特征,如数据包包长;
5.如权利要求2所述的方法,其特征在于,S1.3包括:
S1.3.1:将提取到的网络流中每个数据包的载荷的每个字节转换为两位16进制表示,并分别添加三位16进制数表示每个字节在所属数据包中全部载荷内的序号位置,注意将同属一个数据包载荷部分的数据排列成一行,这样对于N个数据包则存在N行数据,其中每行数据中每一列均为5位16进制数。
S1.3.2:将提取到的网络流中的流特征,如数据包包长大小,也转换为三位16进制数表示,并分别添加四位16进制数表示每个数据包在五元组网络流中的序号位置,注意将同属一个网络流的数据排列成一行,这样对于N条网络流则存在N行数据,其中每行数据中每一列均为7位16进制数。
6.如权利要求1所述的方法,其特征在于,S2包括:
S2.1:利用Apriori算法计算针对载荷特征的N行数据或者针对流特征的N行数据的最高支持度的频繁项;
S2.2:根据S2.1计算得到的最高支持度的频繁项,将所有包含此频繁项的行聚为一类,并将其设为A类,将其余不包含此最高支持度频繁项的行聚为另一类,并将其设为B类;
S2.3:将S2.2中得到的B类再次利用Apriori算法计算其最高支持度的频繁项,并将包含此频繁项的行聚为一类,将其设为C类,将所述B类中不包含此最高支持度频繁项的行聚为另一类,并将其设为D类;
S2.4:每次将不包含最高支持度频繁项的类重复执行S2.3,直到全部行聚类完成,且每类中高支持度频繁项的支持度均为1。
7.如权利要求1所述的方法,其特征在于,在S3中:
S3.1:设在S2中所有行共聚为M类,对于M类中的每一类再继续重复执行S2,此时再计算最高支持度时仍须排除前面已被找到并据此聚类的频繁项;
S3.2:第一次执行S2得到的为自动化特征挖掘的第一层特征数据,第二次对于M类中每一类执行S2的得到的为自动化特征挖掘的第二层特征数据,以此类推,直到迭代完成至无法继续聚类。
8.如权利要求1所述的方法,其特征在于,S4包括:
S4.1:保存S2和S3执行过程中每一类的最高支持度频繁项及其所存在于的特征行数目大小;
S4.2:展示步骤S4.1得到的各项层级数据,同时可根据阈值智能提取能覆盖所有N行数据比例超过阈值的所有有效特征组合并输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310008027.0/1.html,转载请声明来源钻瓜专利网。