[发明专利]基于半监督谱聚类和集成SVM的流量检测方法及系统有效
申请号: | 202010531581.7 | 申请日: | 2020-06-11 |
公开(公告)号: | CN113810333B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杜冠瑶;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06V10/764;G06V10/762 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 谱聚类 集成 svm 流量 检测 方法 系统 | ||
1.一种基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述检测方法包括如下步骤:
构建综合数据集;
利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;具体包括如下步骤:
计算综合数据集中两点之间的欧氏距离;
修改距离矩阵D;
构造矩阵S;
构造矩阵其中,T为对角矩阵,i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
经过谱聚类过程获得2个类;
对已知网络流量的数据集进行聚类,分别计算2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量;
利用集成学习方法对未知网络流量的攻击类型进行检测;具体包括如下步骤:
获取训练样本集合M,进行多轮训练,获得多个弱分类器;具体为:从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器;
所述挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集;
或者,设定错位分类阈值的上限值和下限值,上限值为H,下限值L,所述挑选出下一轮训练过程的训练数据集包括:
将|Q|与H和L进行比较;
当|Q|<L,从训练样本集合M中随机选择N个样本,组成下一轮训练过程中的训练数据集;
当|Q|>H,从样本集合Q中随机选择H个样本形成新的集合Q1,然后从训练样本集合M中随机选择N-α|H|个样本形成样本集合P1,将样本集合P1和集合Q1α组合作为下一轮训练过程中的训练数据集;
其中,Q1α表示集合Q1中的样本复制α次之后的样本集合;
当L≤|Q|≤H,从训练样本集合M中随机选取N-α|Q|个样本形成集合P2,样本集合P2和集合Qα组合作为下一轮训练过程中的训练数据集,Qα表示将样本集合Q中的样本复制α次之后的样本的集合;其中,N,α,L和H是超参数;
多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
2.根据权利要求1所述的基于半监督谱聚类和集成SVM的流量检测方法,其特征在于,所述构建综合数据集包括如下步骤:
获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
将无标签数据集与未知网络流量混合形成无标签的综合数据集。
3.一种应用权利要求1-2任一项所述的基于半监督谱聚类和集成SVM的流量检测方法的流量检测系统,其特征在于,所述系统包括:
综合数据集构建模块,所述综合数据集构建模块被配置为用于构建综合数据集;
筛选模块,所述筛选模块被配置为利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
攻击类型检测模块,所述攻击类型检测模块被配置为利用集成学习方法对未知网络流量的攻击类型进行检测。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-2任一项权利要求所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010531581.7/1.html,转载请声明来源钻瓜专利网。