[发明专利]一种基于半监督学习的网络流量分类方法、计算机设备在审
申请号: | 201711103392.4 | 申请日: | 2017-11-10 |
公开(公告)号: | CN107819698A | 公开(公告)日: | 2018-03-20 |
发明(设计)人: | 冉静;孔晓晨;刘元安;胡鹤飞;袁东明 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L12/851 | 分类号: | H04L12/851;H04L12/26;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 网络流量 分类 方法 计算机 设备 | ||
技术领域
本发明属于网络流量管理领域,尤其涉及一种基于半监督学习的网络流量分类方法、计算机设备。
背景技术
传统的基于网络流的方法大多结合监督的或无监督的机器学习算法来实现网络流量分类。在有监督的流量分类中,学习引擎接受一组已标记的流样本,根据预定义的协议类别进行训练,然后返回一个训练好的分类模型,该分类模型可以预测未来网络流的协议类型。然而,随着网络的迅速扩展,互联网上部署了许多新的应用程序,这些应用对应的未知流是基于监督学习的分类方法无法处理的。在这种情况下,未知流将被错误地划分到某个预定义的流量类别中去,并影响分类器的整体精度。基于无监督学习的分类方法可以自动聚类未标记的训练样本,应用聚类结果构建流量分类器。但是聚类簇的数目必须被设置得足够大,以得到高纯度的流量簇,而且很难在没有监督信息的情况下将大量的流量簇映射到少量的流量类别中。
因此,传统的流量分类方法在标记信息不足,且网络中存在未知流量的现实情况下表现不佳。为了解决这个问题,Erman等人首先提出了将半监督学习方法应用到流量分类中,利用有标记流和未标记流的混合输入,训练出一个可以将已知协议分类的同时提取出未知协议的分类器。张等人扩展了Erman的工作,提出了一种改进的半监督流量分类方法,该方法在复杂的网络环境下表现良好。然而,这些方法仍然存在以下问题:
第一,没有充分的利用已标记数据,即标记流。在经典的半监督分类方法和后来改进的方法中,标记流均只用于聚类的识别,没有对其进行充分的利用。
第二,在实际场景中,利用标记流识别聚簇结果时,往往没有考虑未知协议簇中,如果存在少量被误分到该簇的已标记数据,则该簇就会被错误的划分到某已知协议类别中去,利用这样的聚簇结果训练出的线上分类器,会严重影响该类协议的分类准确率,以及对未知协议提取的准确率,导致线上分类器的准确率下降。
针对现有技术中的上述问题,目前尚未有有效的解决方案。
发明内容
本发明所要解决的技术问题是:没有充分的利用已标记数据,即标记流。在经典的半监督分类方法和后来改进的方法中,标记流均只用于聚类的识别,没有对其进行充分的利用。
为解决上面的技术问题,本发明提供了一种基于半监督学习的网络流量分类方法,该网络流量分类方法包括:
S1,获取已标记类型和未标记类型的网络流,按照预设固定量来提取每条网络流中的流特征,得到网络流特征向量;
S2,根据已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,并根据所述信息增益对每个流特征进行特征加权;
S3,将已标记类型和未标记类型的网络流进行混合,并利用k-means算法对混合后的网络流进行聚类,得到k个聚簇;
S4,获取所述k个聚簇中的每个聚簇中已标记网络流特征向量的数目,并确定每个聚簇中每个类型的占比值;其中所述占比值是等于每个类型的已标记网络流特征向量的数目占簇中总的已标记网络流特征向量的数目的比例;
S5,当每个聚簇中已标记网络流特征向量的总数目相加小于预设网络流阈值时,则将相应的聚簇判定为未知协议簇,否则将相应的聚簇判定为已标记网络流特征向量中比例最大的类型;
S6,重复步骤S4-S5,直到k个聚簇都判定出流量类型的流量簇;
S7,将所述判定出流量类型的流量簇作为训练数据,训练出线上的流量分类器。
本发明的有益效果:通过本发明的方法,提取固定数量的流特征,再利用已标记的网络流计算出每个流特征的信息增益,再根据信息增益对每个流特征进行特征加权,这样是网络流的特征选取系统也不需要进行重置,而且区分度更高,另外也充分利用了标记数据改进了线下k-means聚类得到的聚簇的类别判定方法,从而使得有些被错误划分到某已知协议类别中的簇也可以识别出来,利用这样的聚簇结果训练出的线上分类器,可以大大提高线上分类器的准确率,同时实现线上未知协议的提取。
进一步地,所述步骤S1中已标记网络流占总的网络流数量的比例为预设值rl,且每种类型的已标记网络流的数量相同。
进一步地,所述预设网络流阈值时是指每个聚簇中所有网络流的数目乘以所述预设值rl的一半。
进一步地,所述步骤S2中包括:根据所述已标记类型的网络流,计算出所述预设固定量中每个流特征的信息增益,其具体公式为:
IG(Fi)=H(C)-E(Fi);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711103392.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:数据传输方法、交换机及数据中心
- 下一篇:一种数据业务的处理方法及系统