[发明专利]一种基于二进制编码器和多哈希表的网络流量分类方法有效
申请号: | 201811380024.9 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109376797B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 齐恒;周文蘂;李克秋;王军晓 | 申请(专利权)人: | 大连理工大学 |
主分类号: | G06F18/241 | 分类号: | G06F18/241;G06F18/2413;H04L47/2441 |
代理公司: | 大连星河彩舟专利代理事务所(普通合伙) 21263 | 代理人: | 马新月 |
地址: | 116024 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二进制 编码器 多哈 网络流量 分类 方法 | ||
一种基于二进制编码器和多哈希表的网络流量分类方法属于计算机网络和机器学习的交叉领域。本发明首先通过网络流量数据采集模块获取网络流量数据,然后提取网络流统计特征并进行预处理,得到特征数据之后,需要对网络流量构建无监督二进制编码器并得到其二进制编码,接着在哈希索引模块针对网络流量数据创建多个子串的哈希表,即创建哈希索引,最后采用机器学习方法即基于多哈希表的KNN分类模块对得到的哈希编码进行分类。本发明无需反复对分类器进行学习训练,能够提高分类算法的运行速率及可扩展性;利用二进制编码降低流量数据所占用的存储空间和流量分类所消耗的计算资源。本方法更适用于解决当前新应用层出不穷的互联网环境下的流量分类问题。
技术领域
本发明属于计算机网络和机器学习的交叉领域,涉及一种基于二进制编码器和多哈希表的用于网络流量分类的方法。
背景技术
近几年,互联网基础建设和内容服务均快速发展,互联网中的网络应用是产生网络流量的根本原因。实现网络流量的正确识别并分析网络流量的特征,是我们深入理解网络状况,用户行为,互联网现状的前提条件。随着移动互联网的迅猛发展,对移动互联网流量的特征分析也显得尤为重要。不仅用户数量激增,同时随着网络承载的数据速率越来越高,网络流量越来越大,在线的商用设备每天都能产生TB级甚至更庞大的流量数据。网络流量已呈现大数据特征,对海量数据的存储和分析已成为网络流量特征分析的重要研究内容。
网络流量分类技术,是分析网络流量特征和增强网络可控性的基本手段之一,通过流分类,可以获悉各类网络应用所占比例,研究新的协议与应用,合理规划网络;定期分析重要的特定流量,了解流入流出信息,可以发现设备故障、用户带宽的使用及发现入侵和恶意攻击等。目前,对于网络流量分类技术已经有了一定的研究基础,从早期的基于端口号的分类方法,到基于有效载荷检测的分类方法,即根据网络应用在传输过程中所具有的特征来区分不同的应用,需要解析数据包中的特征字段。
目前,基于机器学习的流量分类方法被认为是最合适的,因为它们具有准确度高以及适用于加密流量分析的优势。然而,当机器学习算法真正在现实的流量分类应用场景中实施时,仍然存在一些瓶颈与问题。
首先,在互联网尤其是移动互联网中新型应用不断涌现,不同类型的应用流量也随之快速增长。而大多数基于机器学习的流量分类方法都是依赖于对分类器进行训练来实现分类。移动流量的动态演化和混合对于分类器训练而言是一个不断变化的目标,即每次出现新一类流量的时候,就需要重新训练分类器,否则无法得到正确的分类。因此,需要耗费大量时间和资源进行反复训练,才可以得到一个高准确度的分类器。
其次,可以使用“懒惰型”的分类算法来避免分类器被反复训练的情况。例如:K近邻算法(KNN算法)所对应的分类器就是训练数据集本身。在对未知样本进行分类时,只需在训练数据集中找到未知样本的K个近邻,由近邻的类别来确定未知样本的类别。当新应用数据产生时,只需捕获新数据丢入训练集中,而不用反复训练分类器。但KNN算法的弊端在于大规模训练数据集需要占用较大存储空间,并且查找近邻速度极慢。随着不断庞大的海量高维流数据特征出现,该方法只能处于理想的试验阶段。
综上,在当前新型应用不断涌现的互联网环境中,实现基于机器学习的网络流量分类,需要一种扩展性强、灵活、稳定且快速的方法来作为支撑。
发明内容
为了克服上述不足,本发明提出了一种基于二进制编码器和多哈希表的网络流量分类算法,目的在于提高网络流量分类技术的可扩展性和分类速度,降低占用的存储空间和所消耗的计算资源。首先我们借鉴大数据哈希编码思想来构建面向流量数据的二进制编码器。大数据哈希编码思想的提出有效地弥补了KNN算法的弊端,使得在大数据环境下实现快速KNN查找变为可能。本发明首先构建一个二进制编码器将网络流量数据进行哈希编码,由此实现汉明空间内的KNN快速查找,从而使得KNN算法可以用来实现网络流量的分类。其次,为了进一步加速汉明空间内的精确KNN查找过程,构建多哈希表来提高算法的可扩展性,并为并行计算奠定基础。图1显示的是本发明的整体模块设计图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连理工大学,未经大连理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811380024.9/2.html,转载请声明来源钻瓜专利网。