[发明专利]一种移动App流量统计特征选择方法有效
申请号: | 201811104919.X | 申请日: | 2018-09-21 |
公开(公告)号: | CN109412969B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 王若愚;张凌;刘珍 | 申请(专利权)人: | 华南理工大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 李斌 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 移动 app 流量 统计 特征 选择 方法 | ||
本发明公开了一种移动App流量统计特征选择方法,该方法包括:S1、获取原始移动App的流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;S4、将漂移程度作为区分能力的惩罚因子,计算流统计特征的综合评估值;S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。本发明的方法涉及移动互联网流量测量领域的移动App流量分类技术,降低数据维度,并提高分类鲁棒性能。
技术领域
本发明涉及流量测量领域的流量分类技术领域,具体涉及一种移动App流量统计特征选择方法。
背景技术
基于机器学习的移动App流量分类技术描述为:对原始流量基于五元组{源IP、目的IP、源端口、目的端口、传输层协议}组流,对流提取流统计特征建立流样本集合,用于训练分类模型。多种流统计特征已经被提出,例如Moore等人在2005年提出248个流统计特征(A.Moore,D.Zuev,M.Crogan.Discriminators for use in flow-basedclassification.Queen Mary and Westfield College,Department of ComputerScience,2005.),包括:报文大小的统计特征(最小、最大、均值、中间值、标准差)、报文到达时间间隔的统计特征(最小、最大、均值、中间值、标准差)、特殊报文数(PUSH报文、ACK报文等)等。流统计特征集合可能存在与分类无关或冗余的特征,为降低分类模型的训练开销和提高分类性能,特征选择通常作为分类模型的预处理(Z.Liu,R.Wang,M.Tao,et al.Aclass-oriented feature selection approach for multi-class imbalanced networktraffic datasets based on local and global metrics fusion.Neurocomputing,2015,168:365-381.)。
在互联网流量分类领域,信息增益率等特征选择算法已被用于选择流统计特征,但这些算法仅关注特征在类间的区分能力,忽略了互联网流量的动态特性导致的特征不稳定问题。Zhang等人提出SRSF特征选择算法,此算法在多个训练集上利用WSU_AUC指标分别选择一个特征子集,再从多个子集中选择出现频率较高的特征加入最终的特征子集(H.Zhang,G.Lu,M.T.Qassrawi,et al.Feature selection for optimizing trafficclassification.Computer Communications,2012,35(12):1457-1471)。Fahad等人提出GOA特征选择算法,此算法通过多个特征评估指标(例如信息熵、信息增益率、卡方等)分别选择一个最优的特征子集,然后搜索具有较高出现频率的特征加入最终的特征子集(A.Fahad,Z.Tari,I.Khalil,A.Almalawi,An optimal and stable feature selectionapproach for traffic classification based on multi-criterion fusion,FutureGener.Comput.Syst.36(2014):156–169)。上述特征选择算法间接地考虑了特征稳定性问题,但是没有提出特征稳定性的评估指标。
专利CN201410352930.3提供了一种基于杜鹃搜索算法的对等网络流量统计特征选择方法,对对等网络数据集,利用杜鹃搜索算法进行特征选择,剔除不相关或冗余的对等网络流量特征,取出真正相关的特征,节省对等网络流量识别中特征提取的计算时间,从而提高对等网络流量识别的效率和正确率。该发明尽管针对网络流量数据,剔除了冗余特征,但是没有分析特征的稳定性,不能用于选择较为稳定的特征子集。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811104919.X/2.html,转载请声明来源钻瓜专利网。