[发明专利]一种网络流量识别方法及装置有效
申请号: | 201910036196.2 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109873774B | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 廖青;赵晶玲;李天琦;刘月 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 丁芸;项京 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络流量 识别 方法 装置 | ||
本发明实施例提供的一种网络流量识别方法及装置,方法包括:在接收当前数据流完成的情况下,提取当前数据流中数据包包头的数据,作为第一样本;将第一样本输入半监督模型,利用半监督模型输出第一样本的类别及第一样本是否位于簇的边界距离内的结果;在第一样本是位于簇的边界距离内的结果情况下,如果第一样本是新类别的样本,则在预设的机器识别模型的输出节点中增加一个输出节点,将增加输出节点后的机器识别模型作为在线识别模型;然后识别当前数据流后的下一个数据流的类别。相比于现有技术,本发明实施例更改机器识别模型的结构,使用更改结构后的机器学习模型识别当前数据流后的下一个的数据流的类别,可以提高识别数据流的类别实时性。
技术领域
本发明涉及通信技术领域,特别是涉及一种网络流量识别方法及装置。
背景技术
流量是网络中传输数据的重要载体,流量识别是网络监控的关键环节,只有对流量进行识别,才能根据不同的流量采取不同的监控策略,例如:拒绝、优化、打标、优先级分类等等,因此对网络流量进行识别至关重要。一般网络流量以数据流的形式传输,每条数据流包含多个数据包,每个数据包包括固定字节的包头数据,根据包头数据可以获得包头数据的特征,包头数据的特征包括:时间间隔,流持续时间,数据包大小的均值、方差等。
现有技术中对网络流量识别采用的是基于机器学习的方法,该方法主要是通过机器学习技术,挖掘网络包头数据的特征,然后训练得到机器学习模型,然后将数据流输入训练得到的机器学习模型,输出在线网络流量的类别。其中,采用如下步骤训练得到机器学习模型:首先通过统计整条数据流中数据包包头数据的特征,选择整条数据流中全部或者部分包头数据的特征作为样本,训练样本,得到机器学习模型,这个机器学习模型是离线模型,其内部结构固定。
由于网络环境的实时变化,数据流的特征也会发生变化,使用内部结构固定的机器学习模型,识别在线网络流量的类别的实时性不高,因此现有技术识别在线网络流量类别的实时性不高。
发明内容
本发明实施例的目的在于提供一种网络流量识别方法及装置,提高识别数据流的类别实时性,具体技术方案如下:
第一方面,本发明实施例提供的一种网络流量识别方法,应用于服务器,方法包括:
在接收当前数据流完成的情况下,提取当前数据流中数据包的包头数据,作为第一样本;
将第一样本输入半监督模型,利用半监督模型输出第一样本的类别及第一样本是否位于簇的边界距离内的结果;半监督模型是利用第一训练样本集训练得到且包含已获得包头数据的类别与第一训练样本集中其余样本的分布关系;第一训练样本集中包含与至少一个有类别标签的样本;分布关系决定有类别标签的样本是否位于簇的边界距离内的结果;
在第一样本是位于簇的边界距离内的结果情况下,如果第一样本是新类别的样本,则在预设的机器识别模型的输出节点中增加一个输出节点,将增加输出节点后的机器识别模型作为在线识别模型;
使用在线识别模型,识别当前数据流后的下一个数据流的类别。
可选的,在在接收当前数据流完成的情况下,提取当前数据流中数据包包头的数据,作为第一样本的步骤之前,方法还包括:
依次接收当前数据流的数据包,并获取数据包的五元组信息;
判断数据库是否存储五元组信息,如果数据库存储五元组信息,则将数据包的包头数据保存至与五元组信息对应路径的存储区域;
如果数据库未存储五元组信息,则创建与五元组信息对应路径的存储区域,将数据包的包头数据保存至五元组信息对应路径的存储区域。
可选的,在接收当前数据流完成的情况下,提取当前数据流中数据包的包头数据,作为第一样本,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910036196.2/2.html,转载请声明来源钻瓜专利网。