[发明专利]一种移动App流量统计特征选择方法有效

专利信息
申请号: 201811104919.X 申请日: 2018-09-21
公开(公告)号: CN109412969B 公开(公告)日: 2021-10-26
发明(设计)人: 王若愚;张凌;刘珍 申请(专利权)人: 华南理工大学
主分类号: H04L12/851 分类号: H04L12/851
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 李斌
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 移动 app 流量 统计 特征 选择 方法
【说明书】:

本发明公开了一种移动App流量统计特征选择方法,该方法包括:S1、获取原始移动App的流量数据集,提取移动App流量的流统计特征,获取用于训练的有标记数据集LD,以及待分类的无标记数据集UD;S2、在LD数据集上,利用信息增益率,评估每个流统计特征在类间的区分能力;S3、在LD和UD数据集上,计算每个流统计特征的取值分布,利用Hellinger距离评估特征取值分布差异性,评估流统计特征的漂移程度;S4、将漂移程度作为区分能力的惩罚因子,计算流统计特征的综合评估值;S5、基于综合评估值,搜索区分能力强且漂移程度低的流统计特征子集。本发明的方法涉及移动互联网流量测量领域的移动App流量分类技术,降低数据维度,并提高分类鲁棒性能。

技术领域

本发明涉及流量测量领域的流量分类技术领域,具体涉及一种移动App流量统计特征选择方法。

背景技术

基于机器学习的移动App流量分类技术描述为:对原始流量基于五元组{源IP、目的IP、源端口、目的端口、传输层协议}组流,对流提取流统计特征建立流样本集合,用于训练分类模型。多种流统计特征已经被提出,例如Moore等人在2005年提出248个流统计特征(A.Moore,D.Zuev,M.Crogan.Discriminators for use in flow-basedclassification.Queen Mary and Westfield College,Department of ComputerScience,2005.),包括:报文大小的统计特征(最小、最大、均值、中间值、标准差)、报文到达时间间隔的统计特征(最小、最大、均值、中间值、标准差)、特殊报文数(PUSH报文、ACK报文等)等。流统计特征集合可能存在与分类无关或冗余的特征,为降低分类模型的训练开销和提高分类性能,特征选择通常作为分类模型的预处理(Z.Liu,R.Wang,M.Tao,et al.Aclass-oriented feature selection approach for multi-class imbalanced networktraffic datasets based on local and global metrics fusion.Neurocomputing,2015,168:365-381.)。

在互联网流量分类领域,信息增益率等特征选择算法已被用于选择流统计特征,但这些算法仅关注特征在类间的区分能力,忽略了互联网流量的动态特性导致的特征不稳定问题。Zhang等人提出SRSF特征选择算法,此算法在多个训练集上利用WSU_AUC指标分别选择一个特征子集,再从多个子集中选择出现频率较高的特征加入最终的特征子集(H.Zhang,G.Lu,M.T.Qassrawi,et al.Feature selection for optimizing trafficclassification.Computer Communications,2012,35(12):1457-1471)。Fahad等人提出GOA特征选择算法,此算法通过多个特征评估指标(例如信息熵、信息增益率、卡方等)分别选择一个最优的特征子集,然后搜索具有较高出现频率的特征加入最终的特征子集(A.Fahad,Z.Tari,I.Khalil,A.Almalawi,An optimal and stable feature selectionapproach for traffic classification based on multi-criterion fusion,FutureGener.Comput.Syst.36(2014):156–169)。上述特征选择算法间接地考虑了特征稳定性问题,但是没有提出特征稳定性的评估指标。

专利CN201410352930.3提供了一种基于杜鹃搜索算法的对等网络流量统计特征选择方法,对对等网络数据集,利用杜鹃搜索算法进行特征选择,剔除不相关或冗余的对等网络流量特征,取出真正相关的特征,节省对等网络流量识别中特征提取的计算时间,从而提高对等网络流量识别的效率和正确率。该发明尽管针对网络流量数据,剔除了冗余特征,但是没有分析特征的稳定性,不能用于选择较为稳定的特征子集。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201811104919.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top