[发明专利]一种基于随机森林的僵尸网络恶意流量监测方法在审
申请号: | 202110142127.7 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112800424A | 公开(公告)日: | 2021-05-14 |
发明(设计)人: | 张笑然;闫连山;李赛飞;李洪赭 | 申请(专利权)人: | 西南交通大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都信博专利代理有限责任公司 51200 | 代理人: | 舒启龙 |
地址: | 610031 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 随机 森林 僵尸 网络 恶意 流量 监测 方法 | ||
1.一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,包括以下步骤:
步骤A:数据收集:用收集流量收集软件提取到的PCAP文件,收集恶意流量数据并标注类别;
步骤B:数据预处理:对数据收集模块提取到的PCAP文件进行数据预处理,将流量按照五元组类型划分为数据流并提取其中的流统计特征;
步骤C:核心分析:对数据预处理模块得到的流统计特征进行基于随机森林的Wrapper方法进行特征筛选,选取特征子集;
步骤D:恶意流量种类检测:用于利用核心分析模块筛选出的特征子集作为模型输入,检测其是否属于恶意流量数据,并输出其所属类别;
步骤E:反馈显示:收到恶意流量种类检测模块产生的最终检测结果,判断是否检测到恶意流量;如果检测为恶意流量数据,则将此条流量的具体信息反馈给用户;若检测结果不包含恶意流量,则告知用户该段捕获流量不存在恶意流量。
2.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤B中数据预处理的具体为:
B1、判断原始数据是否包含相同五元组,是则继续,否则丢弃;
B2、判断数据流是否携带一定信息,是则继续,否则丢弃;
B3、判断数据流是否是一个完整的双向流,是则保留,否则丢弃。
3.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤B中采用的数据流类型要求正常流量与恶意流量比例为6:1。
4.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤B中提取到流统计特征包含26种,具体为:前向数据包个数、后向数据包个数、前向最大包长度、前向最小包长度、前向平均包长度、前向包长标准差、后向最大包长度、后向最小包长度、后向平均包长度、后向包长标准差、前向包平均时间间隔、前向包最大时间间隔、前向包最小时间间隔、前向包时间间隔标准差、后向包平均时间间隔、后向包最大时间间隔、后向包最小时间间隔、后向包时间间隔标准差、流平均时间间隔、流最大时间间隔、流最小时间间隔、流时间间隔标准差、前向包PSH标记数目、后向包PSH标记数目、前向包URG标记数目和后向包URG标记数目。
5.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤C具体为:
C1、按照随机森林算法对特征重要性排序;
C2、使用序列后向搜索方法进行特征迭代得到特征选择结果;
C3、采用10折交叉验证方法进行验证;
C4、输出全局最高分类准确率对应的特征集合。
6.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤D中建模分析方法包括有监督学习方法GBDT,XGBoost算法或KNN算法。
7.根据权利要求1所述的一种基于随机森林的僵尸网络恶意流量监测方法,其特征在于,所述步骤E中最终信息包括IP地址,MAC地址以及域名。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西南交通大学,未经西南交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110142127.7/1.html,转载请声明来源钻瓜专利网。