[发明专利]一种并行网络流量分类方法有效
申请号: | 201510066197.3 | 申请日: | 2015-02-09 |
公开(公告)号: | CN104702465B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | 王勇;龙也;陶晓玲;何倩;韦毅;曾小宝 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06F17/30 |
代理公司: | 桂林市持衡专利商标事务所有限公司45107 | 代理人: | 陈跃琳 |
地址: | 541004 广*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种并行网络流量分类方法,基于Hadoop集群平台提供的MapReduce并行框架,先对数据集进行预处理,通过特征选择方法对高维网络流量数据降维,去除不相关以及冗余特征;然后通过选择性集成学习训练多个基分类器,选出其中准确率高以及差异性大的基分类器集成;最后通过多数投票方式得出最终分类结果。本发明能够有效的解决海量数据降维及分类问题,很大程度上提高了数据处理效率。 | ||
搜索关键词: | 一种 并行 网络流量 分类 方法 | ||
【主权项】:
一种并行网络流量分类方法,包括对网络流量数据进行特征选择过程S1和对网络流量分类得到分类结果过程S2,其特征是,上述网络流量数据进行特征选择的过程S1具体如下:S1‑1.将初始数据DA处理成特征向量X后,按照设定的向量个数a将其划分为a份特征向量子集Y,且所有类标签作为单独一个类标签向量C;S1‑2.启动映射任务,将a份特征向量子集Y均分到a个映射任务节点上,并将类标签向量C传到这a个映射任务节点;S1‑3.根据费舍尔得分Fk与类标签互信息标准化值SU(x,C),从各特征向量X中预选出鉴别能力强与相关性大的特征向量,整合预选出的特征向量得到整合特征向量子集S,并将整合特征向量子集S与类标签向量C一起发送到规约任务节点上;S1‑4.启动规约任务,规约任务节点计算整合特征向量子集S的每个特征向量与类标签向量C的类标签互信息标准化值SU(x,C);S1‑5.初始化优选特征向量子集V,选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量加入优选特征向量子集V,并从整合特征向量子集S中删除该特征向量;S1‑6.再选取整合特征向量子集S中类标签互信息标准化值SU(x,C)最大的特征向量,计算该特征向量与优选特征向量子集V中其它特征向量的特征互信息标准化值SU(x,x’),如果该特征向量存在特征互信息标准化值SU(x,x’)大于类标签互信息标准化值SU(x,C)的情形,则从整合特征向量子集S中删除该特征向量,否则将该特征向量加入到优选特征向量子集V中;S1‑7.重复步骤S1‑6,直到整合特征向量子集S为空,此时整合优选特征向量子集V与类标签向量C构成训练集L输出到后续对网络流量分类得到分类结果过程S2中;上述对网络流量分类得到分类结果过程S2具体如下:S2‑1.对经过特征选择之后的训练集L按样本向量化,按设定的向量个数s重复抽样s份作为样本训练集,随机抽取其中的一份作为测试集;S2‑2.再次启动映射任务,将划分后的s‑1份样本训练集均分到s‑1个映射任务节点上,并将测试集传到这s‑1个映射任务节点;S2‑3.对每个样本训练集训练一个基分类器,用测试集分别测试各基分类器得到该基分类器的预测类标签向量;将预测类标签向量中的类标签与实际的类标签向量中的类标签逐一进行比较,获得每个基分类器的分类准确率;选出分类准确率大于设定阈值的基分类器,将被选基分类器、该基分类器对应的分类准确率和预测类标签向量一起传送到规约任务节点;S2‑4.再次启动规约任务,根据不一致性度量公式计算各基分类器的差异性值dij,选出差异性大的基分类器集成为分类器集;S2‑5.通过多数投票方式,用得到的分类器集对测试集进行分类。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510066197.3/,转载请声明来源钻瓜专利网。