[发明专利]基于半监督谱聚类和集成SVM的流量检测方法及系统有效
申请号: | 202010531581.7 | 申请日: | 2020-06-11 |
公开(公告)号: | CN113810333B | 公开(公告)日: | 2023-06-27 |
发明(设计)人: | 龙春;魏金侠;万巍;赵静;杜冠瑶;杨帆 | 申请(专利权)人: | 中国科学院计算机网络信息中心 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06V10/764;G06V10/762 |
代理公司: | 北京知舟专利事务所(普通合伙) 11550 | 代理人: | 郭韫 |
地址: | 100083 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 谱聚类 集成 svm 流量 检测 方法 系统 | ||
本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法及系统,所述检测方法首先将未知网络流量和已知网络流量区分开来。因此,首先解决的是未知网络流量的筛选问题,通过半监督谱聚类方法实现对未知网络流量的筛选,提高了未知网络流量筛选的效率;其次建立基于SVM的集成分类器,避开了从归纳到演绎的传统过程,大大简化了分类与回归问题,同时具有很好的鲁棒性,在检测未知网络流量攻击类型方面具有较高的准确率和较低的误报率,实现对未知网络流量进行攻击类型的精准检测。
技术领域
本发明属于未知流量攻击类型检测技术领域,特别涉及一种基于半监督谱聚类和集成SVM的流量检测方法及系统。
背景技术
网络流量数据来源广、层次多、差异大、纬度高、内在关系错综复杂,未知恶意流量隐藏的比较深;同时应用传统的统计方法不能高效率检测、分析和处理。在如此复杂的网络环境下,如何将未知流量筛选出来,并实现对未知流量攻击类型的高准确性检测,降低检测误报率是目前急需解决的技术问题。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于半监督谱聚类和集成SVM的流量检测方法和系统。
本发明其中一个技术方案提供一种基于半监督谱聚类和集成SVM的流量检测方法,所述检测方法包括如下步骤:
构建综合数据集;
利用半监督谱聚类方法从综合数据集内筛选出未知网络流量;
利用集成学习方法对未知网络流量的攻击类型进行检测。
优选地,所述构建综合数据集包括如下步骤:
获取已知网络流量的数据集,去掉数据集中的标签信息,形成无标签数据集;
将无标签数据集与未知网络流量混合形成无标签的综合数据集。
优选地,所述利用半监督谱聚类方法从综合数据集内筛选出未知网络流量包括如下步骤:
计算综合数据集中两点之间的欧氏距离;
修改距离矩阵D;
构造矩阵S;
构造矩阵其中,T为对角矩阵,i为矩阵S的行角标,j为矩阵S的列角标,i、j=1至n;
经过谱聚类过程获得2个类;
对已知网络流量的数据集进行聚类,分别计算2个类的聚类中心与已知网络流量的数据集中每个类聚类中心的平均距离,距离已知网络流量的数据集的平均距离小的类为已知网络流量,另一类为未知网络流量。
优选地,所述利用集成学习方法对未知网络流量的攻击类型进行检测包括如下步骤:
获取训练样本集合M,进行多轮训练,获得多个弱分类器;
多个弱分类器的加权求和获取强分类器,将未知网络流量输入到强分类器内,输出攻击类型。
优选地,所述进行多轮训练,获得多个弱分类器具体为从训练样本集合M开始训练第一弱分类器,每完成一轮训练后,都从本轮训练的样本集合中挑选出下一轮训练过程的训练数据集进行训练获得多个弱分类器。
优选地,所述挑选出下一轮训练过程的训练数据集包括如下步骤:
从训练样本集合M中随机选择N-Qα个样本形成样本集合P,其中N是本轮训练中选择的训练样本,N<M,Q表示本轮训练过程中分类错误的样本集合;Qα表示将样本集合Q中的样本复制α次之后的样本的集合;
将样本集合P和集合Qα组合成为下一轮训练过程中的训练数据集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院计算机网络信息中心,未经中国科学院计算机网络信息中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010531581.7/2.html,转载请声明来源钻瓜专利网。