[发明专利]基于半监督降维和Tri-LightGBM的异常流量检测方法有效
申请号: | 202010892200.8 | 申请日: | 2020-08-31 |
公开(公告)号: | CN111970305B | 公开(公告)日: | 2022-08-12 |
发明(设计)人: | 张浩;李杰铃 | 申请(专利权)人: | 福州大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06K9/62 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 陈明鑫;蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 维和 tri lightgbm 异常 流量 检测 方法 | ||
本发明涉及一种基于半监督降维和Tri‑LightGBM的异常流量检测方法,包括以下步骤:步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;步骤S2:对数据进行预处理,得到标记样本和无标记样本;步骤S3:采用Fisher Score和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;步骤S4:构建三个基本分类器LightGBM,并初始化;步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器。本发明有效提高了对不平衡数据样本的预测准确率。
技术领域
本发明涉及入侵检测和机器学习,具体涉及一种基于半监督降维和Tri-LightGBM的异常流量检测方法。
背景技术
如今,网络已成为日常生活中非常重要的一部分,恶意攻击无处不在,网络攻击主要通过侵入主机来达到恶意破坏的目的,分析网络节点的流量数据来判断是否存在入侵现象,成为识别网络安全事件的关键步骤。基于监督学习的异常流量检测算法获取大量有标签数据需要耗费大量的人力物力,而无监督学习准确率不高。
发明内容
有鉴于此,本发明的目的在于提供一种基于半监督降维和Tri-LightGBM的异常流量检测方法,省去了大量样本标记工作量,且具有与降维前性能相当的检测率和误报率,并有效提高检测效果。
为实现上述目的,本发明采用如下技术方案:
一种基于半监督降维和Tri-LightGBM的异常流量检测方法,包括以下步骤:
步骤S1:对网络流量数据进行采集,并对采集到的数据进行粒度细化、特征提取与标记,并分为标记数据和无标记数据;
步骤S2:对数据进行预处理,得到标记样本和无标记样本;
步骤S3:采用FisherScore和信息增益对标记样本进行多策略的特征组合,并结合无标记样本,采用PCA将多特征转化为综合特征;
步骤S4:构建三个基本分类器LightGBM,并基于标记样本进行初始化;
步骤S5:根据初始化后的三个基本分类器LightGBM,生成未标记数据的伪标记,并基于伪标记数据和标记样本数据用于迭代更新基本分类器;
步骤S6:基于投票方法,将三个基本分类器融合为一个强分类器,用于对异常流量检测。
进一步的,所述预处理包括字符数据映射和归一化处理。
进一步的,所述步骤S3具体为:
步骤S31:根据下式计算FisherScore,然后根据分值对特征重要性进行降序排序;
式中:给定特征集{f1,f2,…,fm},ui表示样本中第i个特征fi的均值,表示样本中第i个特征fi在第k类中的均值,表示第i个特征fi在第k类样本的方差,nk表示第k类样本的数目,F(fi)表示第i个特征的Fisher分值;
步骤S32:根据下式计算信息增益,并根据分值对特征重要性进行降序排序
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010892200.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速合成V-型聚磷酸铵的方法
- 下一篇:一种弹性蛋白肽的制备方法