[发明专利]基于特征选择方法的网络浏览与视频分类方法有效
申请号: | 201610113179.0 | 申请日: | 2016-02-29 |
公开(公告)号: | CN105787512B | 公开(公告)日: | 2019-08-02 |
发明(设计)人: | 董育宁;王凯 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于新型特征选择方法的网络浏览与视频分类方法,该方法的特征选择是通过计算类别内部以及类别之间的变异系数判断特征的重要程度。该方法相对于现有方法具有更低的计算复杂度,能有效地减少特征选择过程的时间和空间复杂度。同时,将本发明方法运用于Skype语音、在线视频观看(即非直播)、在线视频直播、HTTP下载、网页浏览(即网页内容为文字和图片)、网页浏览(即含视频)六种业务分类。实验结果表明,本发明方法可以比现有方法获得更好的分类性能,证明了本发明方法的有效性以及合理性。另外,本发明考虑网页浏览内容因素对于QoS的影响,首次对网页浏览进行了细粒度的分类,能为用户提供更好的QoS保障。 | ||
搜索关键词: | 基于 新型 特征 选择 方法 网络 浏览 视频 分类 | ||
【主权项】:
1.基于特征选择方法的网络浏览与视频分类方法,其特征在于,所述方法包括如下步骤:步骤1:在互联网环境中使用网络数据包获取工具获得实验数据,在数据量过大的情况下,对数据包采样,然后对数据包进行过滤,最后计算这些网络业务流的统计特征;步骤1‑1:通过网络数据包分析工具wireshark进行网页浏览和网络视频业务流的数据获取,然后对获取的数据进行格式处理,转换成标准的五元组格式,即数据包到达时间、源IP地址、目的IP地址、协议、数据分组大小;步骤1‑2:数据包采样不是一个必不可少的过程,由于网络中获取的数据量非常大,如果直接对如此庞大的数据进行特征计算,势必会造成巨大的计算资源耗费,此时对数据包进行采样处理以降低分类器的处理压力;步骤1‑3:数据包过滤是指对滤除不感兴趣并且不会对分类结果产生影响的数据包;步骤1‑4:利用gawk和perl文本处理工具对标准五元组网络流数据进行处理获得网络业务流的统计特征,即下/上行包大小的信息熵、包到达时间间隔的最大/最小值/均值/方差、数据包大小的三阶中心矩、下行字节速率统计特征;步骤2:对业务流的统计特征进行分析,并进行特征筛选;步骤2‑1:对所有业务流的的统计特征值进行离散化操作,以降低在特征选择过程中的计算复杂度;步骤2‑2:计算每类业务的每个特征的变异系数IN_CVij,表示第i类业务的第j个特征的变异系数;其中,变异系数描述了一组数据相对于均值的标准偏差,是反映数据离散程度的统计量,变异系数可以反映数据的变化程度,变异系数越大,说明该组数据分布越分散;反之,则分布越集中,它能对数据集中不同类型的数据进行比较,因为它与数据的量纲无关;步骤2‑3:计算每类业务每个特征的均值Mij,然后利用Mij计算所有业务之间的变异系数OUT_CVj,表示所有业务之间的第j个特征的变异系数;步骤2‑4:定义重要程度系数,并计算重要程度系数
其中CIij代表第i类业务的第j个特征的重要程度系数,OUT_CVj代表业务之间的变异系数,IN_CVij代表业务内部的变异系数;步骤2‑5:对于固定的每个特征j,计算所有业务的重要程度系数的均值CIj=MEAN(CIij),其中MEAN代表求均值,CIj代表第j个特征的重要程度系数,CIij代表第i类业务的第j个特征的重要程度系数;步骤2‑6:对CIj进行排序,得到特征对于该数据集的重要程度顺序;步骤2‑7采用分装器的方式,统计特征按重要程度顺序输入K近邻分类器,以分类器的分类结果作为最优特征子集的评价标准,最后获得的具有区分度的QoS统计特征;步骤3:获得统计特征作为表示业务流的特征向量,然后利用K近邻分类器对未知业务流进行分类,得到分类结果,K表示分类器的未知参数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201610113179.0/,转载请声明来源钻瓜专利网。