[发明专利]基于半监督降维和Tri-LightGBM的异常流量检测方法有效

申请号：	202010892200.8	申请日：	2020-08-31
公开（公告）号：	CN111970305B	公开（公告）日：	2022-08-12
发明（设计）人：	张浩;李杰铃	申请（专利权）人：	福州大学
主分类号：	H04L9/40	分类号：	H04L9/40;G06K9/62
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	陈明鑫;蔡学俊
地址：	350108 福建省福州市***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于监督维和 tri lightgbm 异常流量检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种基于半监督降维和Tri‑LightGBM的异常流量检测方法，包括以下步骤：步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记，并分为标记数据和无标记数据；步骤S2:对数据进行预处理，得到标记样本和无标记样本；步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；步骤S4:构建三个基本分类器LightGBM，并初始化；步骤S5:根据初始化后的三个基本分类器LightGBM，生成未标记数据的伪标记，并基于伪标记数据和标记样本数据用于迭代更新基本分类器；步骤S6:基于投票方法，将三个基本分类器融合为一个强分类器。本发明有效提高了对不平衡数据样本的预测准确率。

技术领域

本发明涉及入侵检测和机器学习，具体涉及一种基于半监督降维和Tri-LightGBM的异常流量检测方法。

背景技术

如今，网络已成为日常生活中非常重要的一部分，恶意攻击无处不在，网络攻击主要通过侵入主机来达到恶意破坏的目的，分析网络节点的流量数据来判断是否存在入侵现象，成为识别网络安全事件的关键步骤。基于监督学习的异常流量检测算法获取大量有标签数据需要耗费大量的人力物力，而无监督学习准确率不高。

发明内容

有鉴于此，本发明的目的在于提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法，省去了大量样本标记工作量，且具有与降维前性能相当的检测率和误报率，并有效提高检测效果。

为实现上述目的，本发明采用如下技术方案：

一种基于半监督降维和Tri-LightGBM的异常流量检测方法，包括以下步骤：

步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记，并分为标记数据和无标记数据；

步骤S2:对数据进行预处理，得到标记样本和无标记样本；

步骤S3:采用FisherScore和信息增益对标记样本进行多策略的特征组合，并结合无标记样本，采用PCA将多特征转化为综合特征；

步骤S4:构建三个基本分类器LightGBM，并基于标记样本进行初始化；