[发明专利]一种对网络流量识别分类的方法有效
申请号: | 202010341791.X | 申请日: | 2020-04-27 |
公开(公告)号: | CN111565156B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 崔弘;祝远鉴;汪晓猛;汪禄 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;H04L43/028;H04L65/60 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络流量 识别 分类 方法 | ||
本发明公开了一种对网络流量识别分类的方法,包括如下步骤:步骤1,对稀疏自编码神经网络采用多个激活函数而非单一激活函数对训练样本进行训练,得到会话样本特征;步骤2,在步骤1的基础上进行改进的Kmeans聚类算法训练,得到最终的分类模型;步骤3,利用分类模型对网络流量进行分类。该方法基于会话流统计特征而非固定端口、匹配特征码方式实现的,因此该法对动态端口、加密流量识别分类也有一定的效果。
技术领域
本发明涉及一种对网络流量识别分类的方法。
背景技术
随着互联网技术的不断创新、发展,多媒体业务发展也进入了发展的高潮,形式逐渐趋于多样化,直接加剧网络的拥塞程度,这给运营商网络运营工作带来巨大冲击。因此,如何对互联网上层出不穷的多媒体流量内容进行有效的识别分类,已经成为业界主要关注点。传统的人工协议分析方式费时费力,急需一种新的技术方法来解决这类问题。现在很多学者、公司都致力于流量识别算法的研究,这些算法主要包括基于端口流量识别技术、深度包检测技术(DPI)、基于机器学习、深度学习的流量识别技术。虽然这些技术取得了较大的成效,但是也不难发现通过单一技术手段很难应对目前复杂网络环境,因此需要融合多种技术手段对网络流量进行识别。
基于端口的流量识别技术,主要利用端口和应用之间的映射关系进行流量识别。由于该技术简单高效,使得该技术在传统的网络环境下得到了广泛的应用。随着互联网环境的复杂化,目前很多应用都是采用动态端口来进行网络通信,例如大部分的web服务器和ftp服务器。针对这类采用动态端口的流量来说,该技术是失效的,同时也能看到该技术方法只能识别该应用属于某一协议而无法对流量内容进行分类。
深度包检测技术,这种技术源于端口识别技术无法解决互联网应用采用动态端口或端口伪装的应用而生。该技术识别原理是对数据包进行解包,匹配特征码。这种方法对大部分的流量都十分有效,并且也得到广泛的应用,例如著名的L7-filter。这种技术存在两种明显的不足,分别是有效载荷部分必须可见和特征码已知。随着用户对隐私保护和网络安全意识的增强,越来越多的应用流量内容采用加密和隧道技术突破该技术限制。
基于机器学习、深度学习的流量识别技术,这种技术不关注报文的局部和解析特征,而是基于流量宏观统计行为特征进行识别。这种技术优势对流量行为特征变化有一定的适应性。随着互联网加密应用的不断普及,使得该技术得到广泛的应用,并且取得较好的效果。
发明内容
从交互类型上可以将网络上多媒体流分成交互类、背景类、流类、会话类,本发明主要是针对会话类多媒体流量提供一种对网络流量识别和分类的方法。该方法是基于流统计特征而非固定端口、匹配特征码的多媒体流识别方法。本发明提供了一种基于自编码神经网络特征提取识别方法,该方法能够有效的对多媒体流量内容进行分类。本发明方法具体包括如下步骤:
步骤1,利用改进的稀疏自编码神经网络对训练样本进行学习,得到具有区分性的样本会话特征向量。与传统稀疏自编码神经网络相比,该方法在稀疏自编码神经网络的不同层采用不同激活函数;
步骤2,在步骤1的基础上采用改进的Kmeans聚类算法训练,得到最终的分类模型。与传统的Kmeans聚类算法相比,每轮迭代之后,会将不符合各类条件的样本删除以减少算法的迭代次数,提高算法的泛化能力;
步骤3,利用分类模型对网络流量数据进行分类。
步骤1包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010341791.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速蛋白染色液
- 下一篇:有向传感器网络优化部署系统和方法