[发明专利]一种基于主题模型的动态自更新网络流量分类方法有效
申请号: | 201910425904.1 | 申请日: | 2019-05-21 |
公开(公告)号: | CN110225001B | 公开(公告)日: | 2021-06-04 |
发明(设计)人: | 李睿;肖喜;夏树涛;郑海涛;江勇 | 申请(专利权)人: | 清华大学深圳研究生院 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 江耀纯 |
地址: | 518055 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 主题 模型 动态 更新 网络流量 分类 方法 | ||
本发明公开了基于主题模型的动态自更新网络流量分类方法,包括:初始时刻,利用事先标记好协议类别的数据包集作为初始化数据集,对分类模型进行初始化,以获得时刻1的分类模型;数据包分类:在t时刻,利用时刻t的分类模型对此时收到的待分类数据包进行分类,并输出此时的待分类数据包的协议类别及协议分布信息;分类模型训练更新:利用t时刻输出的已知协议类别的数据包构成训练集,利用t、t‑1、…、t‑(L‑1)共L个历史时刻输出的历史协议分布信息作为主题先验分布,训练时刻t+1的分类模型;t=1,2,3,...,L=1,2,...,δ。本发明解决效率低、未考虑未知类型流量而影响分类模型准确率、未充分考虑网络流量动态性而使分类准确率降低等问题。
技术领域
本发明涉及计算机网络技术领域,具体是流量检测和网络安全领域,尤其是涉及一种基于主题模型的动态自更新网络流量分类方法。
背景技术
网络协议是指不同的计算机之间进行通信的通信规范,包括流程控制、提供的服务和数据格式等。开放系统互联参考模型(OpenSystemInterconnection ReferenceModel)是国际标准化组织在1978年提出的网络互联模型,该模型共分为七层,每一层都定义了所在层的服务提供和协议规范。对应用层协议的识别可以帮助网络提供商、网络安全管理机构等提供更好的网络服务以及侦测恶意流量。
网络流量分类是指将网络流量映射到产生其的应用层协议中。自互联网诞生以来,网络用户以及网络需求都在高速增长。因此,网络应用也随着用户和需求的变化不断地增长。如今的网络应用,数量成千上万,形式也千变万化。近年来,网络发展愈发迅猛,接入带宽几乎按照尼森定律描述的每一年增长百分之五十;而骨干网络带宽则以每12~18个月增长一倍的速度快速增长,远超摩尔定律的预期。高带宽的背后是网络用户数量的飞速增长,据统计,全球互联网用户数量已经超过了20亿,而中国的用户数量也已经达到了4.5亿,这些数字在未来还将继续高速增长。
在这样的大背景下,网络应用的发展也是突飞猛进,随着大数据以及云技术的发展,更多的应用将会出现在互联网链路中。在网络以及各式各样的应用迅速发展的同时,多样化的应用给流量管理、网络安全和网络测量带了更大的挑战。网络流量分类引起了学术界的广泛关注,并且在网络和安全领域扮演着重要的角色。传统的研究方法主要通过端口号、规范的报文格式等信息进行流量分类。然而在网络环境、应用类型千变万化的今天,大部分应用都没有一个特定的固定端口号,也不会有公开的格式规范,更不要说恶意软件以及病毒所产生的流量。在这种环境下,传统的方法已经无法适用。
随着机器学习技术的发展,越来越多研究者将目光投向了将机器学习的技术应用到流量分类问题中。通过这种方法,我们可以自动探寻特定应用产生流量的模式特征,节约了大量的人力物力,并在准确度方面也取得了很好的成果。现有的方法按照处理内容的层次可以分为基于网络流和基于数据包两大类,前者将网络流作为处理对象,而后者则是直接对数据包进行分类。这些研究相较于传统方法取得了较为精确的分类结果。然而通过调研发现,之前的研究方法面对动态网络环境以及新型、较为复杂的应用,识别效果不佳。
公开号为CN109063777A的专利文献提出了一种网络流量分类装置流程,通过按照每个网络流的首个数据包所包含的包头信息对数据包进行流转化,随后将包中字节转化为网络流。随后,该方法对于数据流进行标准化处理,包括去掉数据包的干扰信息,缺失补0,并将数据包的数目进行补齐等等。随后利用深度学习的流量分类模型,包括分层感知网络(Hierarchicalattentionnetwork)模型或基于感知的长短时记忆神经网络模型(Attention-basedLSTM)等模型对流量进行分类。该方法缺点主要有三点:其一,处理流程过于冗余,极大地增加了复杂度,而且循环神经网络本身不需要序列长度一致,因此补齐数据包等操作并没有作用;其二,使用深度学习的方法虽然能够提高网络流量分类的精确度,但是在现实分类应用场景中,网络流量分类方法需要极高的响应速度以及部署在底层网络设备中,而深度学习模型速度较慢且对计算资源要求较高;其三,该模型没有提出对未知流量数据的处理方案,在真实网络环境中模型精确度会下降。综上,该方法不利于真实网络环境的部署。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳研究生院,未经清华大学深圳研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910425904.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于区块链技术的数据处理及传输系统
- 下一篇:业务办理方法及相关产品