[发明专利]一种基于特征强相关的网络流量分类方法在审
申请号: | 201910198841.0 | 申请日: | 2019-03-15 |
公开(公告)号: | CN110009005A | 公开(公告)日: | 2019-07-12 |
发明(设计)人: | 张登银;吴思远;丁飞;赵莎莎;张恩轩;郭诗源 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络流量分类 强相关 互信息计算 冗余度 多维特征向量 启发式搜索 迭代计算 分类结果 分类模型 分类目标 分类效率 特征提取 特征向量 特征选择 训练过程 学习器 构建 集合 取出 分类 响应 保证 | ||
本发明提出一种基于特征强相关的网络流量分类方法,包括以下4个步骤:输入需要训练的数据,对输入数据进行特征提取,形成一个多维特征向量集合;利用特征与响应变量之间的互信息计算特征之间的相关性;根据互信息计算特征之间的冗余度,并通过迭代计算选出得分最高的特征作为最终的特征向量;根据分类目标构建基于特征强相关的网络流量分类模型并得到分类结果。本发明能够充分利用特征之间的相关性,在学习器训练过程中提取出相关性最大冗余度最小的特征,在相同的分类模型下,能够在保证分类精度的前提下有效提升分类效率,解决现有基于启发式搜索的特征选择方法未考虑特征之间相关性导致的不足。
技术领域
本发明涉及数据处理和机器学习,特别涉及基于特征强相关的网络流量分类方法。
背景技术
随着网络技术的发展,网络中的流量增长十分迅速。然而,在促进网络进一步深化发展的同时,也带来了很多的问题。不断扩大的数据规模以及日益增多的应用类型会导致网络资源的利用率下降。有些链路的吞吐量大,而有些链路几乎处于闲置状态,这将导致网络资源的利用率下降。
因此,在过去几年中,网络流量的分类技术已经引起越来越多的关注。从安全角度来看,快速识别恶意流量将有助于安全控制和隔离攻击者。从QoS的角度来看,不同流量的准确分类有助于利用网络资源识别应用程序。此外,网络运营商可以跟踪不同应用的增长情况相应的提供带宽,用来适应用户群的不同需求。
特征选择是“数据预处理”的一个重要的过程,在实际的机器学习任务中,在获得数据后通常先进行特征选择,然后再进行训练。我们经常在真实的任务中遇到维数灾难的问题,这是由于特征值的属性太多导致的,如果可以选择一些重要的特征,使得训练的过程中只需要一部分用来建模的特征,维数灾难的问题将会极大的减少。去掉相关的特征将会极大的减少学习器的难度,这会使学习器的训练时间和效率都会有所提升。
发明内容
发明目的:为解决上述技术问题,本发明提出一种基于特征强相关的网络流量分类方法。该方法利用特征强相关作为参数评估来源,利用降维的方法对特征进行了处理,因此可以对多分类场景下的网络流量进行快速识别。
技术方案:为实现上述技术效果,本发明提供的技术方案为:
一种基于特征强相关的网络流量分类方法,包括步骤:
步骤一:利用特征与响应变量之间的互信息获得预先提取的特征之间的相关性;
步骤二:确定特征之间的相关性,根据特征之间的相关性确定特征之间的冗余度,并根据特征之间的冗余度获得每个特征的得分并确定得分最高的特征;按照预先设定的次数m次迭代确定m个得分最高的特征作为最终的特征向量;
步骤三:根据分类目标构建分类模型并得到特征强相关网络流量分类结果。
进一步地,所述步骤二中利用特征与响应变量之间的互信息获得特征之间的相关性,具体过程为:
假定X和Y表示两个随机变量,则特征与响应变量之间的互信息公式如下所示:
其中,ΩX和ΩY分别是随机变量X和Y的样本空间,p(x,y)是联合概率密度函数,p(x)和p(y)是边缘概率密度函数。
特征的相关性RS计算公式为:
其中,c∈C={+1,-1}表示类变量,S表示数据的特征向量集F的子集,fi为特征向量集F中的一个特征向量。
进一步地,所述步骤三中根据特征之间的相关性确定特征之间的冗余度的公式为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910198841.0/2.html,转载请声明来源钻瓜专利网。