[发明专利]一种基于深度自编码器的未知网络流量识别方法及系统有效
申请号: | 201911321413.9 | 申请日: | 2019-12-20 |
公开(公告)号: | CN111144470B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 张永铮;赵树园;桑亚飞;常鹏 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;H04L47/2483;H04L47/2441 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 编码器 未知 网络流量 识别 方法 系统 | ||
本发明涉及一种基于深度自编码器的未知网络流量识别方法及系统,以原始网络数据流为输入,首先利用n‑gram嵌入对网络数据包中负载的前m个字节进行向量化处理,得到不同维度的数据包向量;然后利用深度自编码器算法对不同维度的数据包向量进行训练并得到特征提取模型,利用该模型完成对网络数据包向量的特征提取,得到优化的网络数据包特征,并将不同维度的特征进行连接,得到网络数据包的最终特征向量;最后基于k‑means聚类算法对未知网络流量进行聚类分析,得到未知流量聚类模型,实现对于实时网络中未知流量的识别。
技术领域
本发明属于网络安全技术领域,涉及流量识别技术,特别涉及一种基于深度自编码器的未知网络流量识别方法及系统。
背景技术
网络流量识别技术的目的是通过分析网络流量识别出哪些网络协议或应用运行在网络中,并建立网络数据流与产生其应用的映射关系。如何正确理解网络流量中的应用程序和协议是网络安全领域关注的核心问题之一,同时也是其他网络管理任务的工作基础,其典型应用场景包括网络监控、服务质量保证、入侵与防范系统(IDS/IPS)等。
但是随着网络的不断发展,网络中协议和应用的种类不断增加,流量识别正面临着一个新的挑战,即未知流量的识别问题。未知流量的概念是相对于现已构建好的流量识别系统而言的,是指未知应用程序(即零日应用程序)产出的网络流量,这部分流量未被现已构建好的识别系统所建模和识别。未知流量作为不可控制的数据,给网络管理带来了潜在的危险。Internet2组织对北美主干网的网络流量统计表明,近50%的流量属于未知流量。然而,现有的未知流量识别技术不能有效的解决该问题,其局限性如下:
特征构建依赖专家经验,扩展性差。在构建未知流量识别系统时,输入数据为无标记网络流量,特征构建一般依赖专家经验,直接使用专家推荐特征表示数据,无法对特征进行有效的选择,得到低冗余和高相关的样本特征。
发明内容
本发明技术解决问题:针对未知网络流量识别的问题,提供一种基于深度自编码器的未知网络流量识别方法及系统,能够对混合网络流量进行聚类分析,形成纯净的未知网络流量簇,有效解决了未知网络流量识别问题;同时实现网络流量的特征提取无需依赖特征工程,即能够在无监督的条件下自动完成特征提取。
本发明技术解决方案:一种基于深度自编码器的未知网络流量识别方法,包括以下步骤:
步骤1,特征提取:输入网络中现有方法无法识别的数据包,首先采用N元模型n-gram嵌入方法对输入的每个数据包中负载的前m个字节进行切割,得到m-n+1个长度为n个字节的载荷字符串,通过设置n-gram模型中参数n,构建不同长度的载荷字符串,得到同一数据包的多个维度的特征集合,然后使用m-n+1个载荷字符串构建数据包特征集,最后将数据包特征集的载荷字符串嵌入(embedding)到数值向量空间,完成载荷字符串数据到数值型数据转换,将n-gram模型每个参数n的m-n+1个特征向量拼接,构建不同维度的数据包特征向量;
步骤2,特征构建:基于步骤1得到的不同维度的数据包特征向量,实现数据包特征向量的降维和关键特征提取,采用深度自编码器算法训练数据包特征向量,生成基于深度自编码器算法的数据包特征向量的降维和关键特征提取模型,使用该模型实现对于不同维度特征向量的无监督特征提取,得到数据包不同维度特征向量,然后将得到的数据包不同维度特征向量进行拼接,得到优化的网络数据包特征向量;
步骤3,未知流量识别:根据步骤2得到的优化的网络数据包特征向量,基于k-means算法对未知网络流量进行聚类分析,构建未知网络流量识别模型,并采用该模型对实时的网络流量进行监测,当训练数据中的未知流量在实时的网络中再次出现时,该模型对实时网络中的未知流量进行识别,最终得到未知流量识别结果。
所述步骤1特征构建,具体步骤为:
(11)以网络中数据包为最小单元,提取数据包中前m个字节的负载信息作为原始数据;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911321413.9/2.html,转载请声明来源钻瓜专利网。