[发明专利]一种基于小样本机器学习的匿名网络流量分类方法在审
申请号: | 202211592847.4 | 申请日: | 2022-12-13 |
公开(公告)号: | CN115913992A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 周强;王良民;路通;朱会娟;冯丽;宋香梅;申屠浩 | 申请(专利权)人: | 江苏大学 |
主分类号: | H04L41/14 | 分类号: | H04L41/14;G06F18/214;G06F18/2415;G06F18/232;G06N3/047;G06N3/048;G06N3/0464;H04L47/2441 |
代理公司: | 南京华恒专利代理事务所(普通合伙) 32335 | 代理人: | 宋方园 |
地址: | 212013 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 样本 机器 学习 匿名 网络流量 分类 方法 | ||
1.一种基于小样本机器学习的匿名网络流量分类方法,其特征在于:包括以下步骤:
步骤(1)、收集网络流量,得到原始流量序列、新采集的少量标注流量以及待分类流量序列;
其中,原始流量序列的数据均带有标注:,是指原始流量序列数据的个数,和分别表示流量序列的记录和对应标注;新采集的少量标注流量表示为:,待分类流量序列表示为:,分别为新采集的少量标注样本的数据和待分类的数据样本数目;
步骤(2)、构建分类模型
将特征提取器G与任务分类器C拼接构成分类模型,其中特征提取器G采用深度卷积网络,任务分类器C包括两层全连接的神经网络;
步骤(3)、预训练分类模型
将带标注的原始流量序列的数据输入到分类模型,基于得到的原始流量数据类别预测概率和真实标签计算分类损失函数,对上步构建的深度分类模型进行预训练;
步骤(4)、训练分类模型
步骤(4.1)将有标注的原始流量序列和新采集的少量标注流量通过神经网络映射到特征空间中,计算新采集的少量标注流量序列特征的各个类别中心点;
步骤(4.2)以得到的类别中心点作为新采集的待分类流量序列特征的聚类中心点,计算各个待分类的流量序列特征到各个聚类中心点距离,赋予待分类序列特征最近类别中心的类别标签,该类别标签作为待分类流量序列的伪标签;
步骤(4.3)将特征空间的特征经过分类器映射后得到类别预测概率,通过伪标签和预测概率计算聚类损失函数;根据得到的聚类适配损失,更新特征提取器G与任务分类器C的网络权重;
循环步骤(4.1)至步骤(4.3)多次以完成模型训练。
2.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法,其特征在于:所述步骤(2)中特征提取器G和任务分类器C的结构如下:
所述特征提取器G有三个卷积模块,第一个卷积模块含有两个卷积层,后两个卷积模块均含有三个卷积层,每个卷积模块后均采用最大池化层和Dropout层,在卷积模块中采用ELU激活函数;所述任务分类器C采用两层全连接神经网络,并在每层网络后均增加dropout层。
3.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法,其特征在于:所述步骤(3)使用分类模型对有标注的原始流量序列数据进行预训练时,计算分类损失函数如下:
其中为分类器对原始流量数据的各类别的预测概率,为流量的真实标签的one-hot编码,表示交叉熵损失函数,计算如下:
;
其中表示对样本属于各类别的预测概率,表示样本真实标签的one-hot编码。
4.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法,其特征在于:所述步骤(4.1)聚类中心的具体计算方法为:
给定新采集的少量流量序列数据输入为,假定原始流量序列数据有K个类别,则有聚类中心为:
其中,;当时,,否则;表示数据集中标签为
5.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法,其特征在于:所述步骤(4.2)待分类流量序列伪标签的计算方法为:
在特征空间中采用余弦相似度来度量新流量序列特征和聚类中心间的距离,距离计算如下:
其中;
对每条新采集的样本,分别与所有的聚类中心计算距离;然后赋予新采集的流量序列最近聚类中心的类别,对每个类簇内的新流量序列赋予伪标签,伪标签的获取方式如下:
。
6.根据权利要求1所述的基于小样本机器学习的匿名网络流量分类方法,其特征在于:所述步骤(4.3)计算聚类适配损失并更新网络权重,具体过程为:
聚类损失函数计算如下:
其中为分类器对新采集流量序列的类别预测输出,为伪标签;
最终整体优化目标函数如下:
其中,为平衡训练中分类损失和聚类损失的超参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏大学,未经江苏大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211592847.4/1.html,转载请声明来源钻瓜专利网。