[发明专利]一种异常加密流量识别方法和系统在审
申请号: | 202110967661.1 | 申请日: | 2021-08-23 |
公开(公告)号: | CN113850294A | 公开(公告)日: | 2021-12-28 |
发明(设计)人: | 戴世诚;王霄雨;袁凯;乔安;袁晨晖 | 申请(专利权)人: | 天翼数字生活科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/00 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 杨洁;蔡悦 |
地址: | 200072 上海市静安*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异常 加密 流量 识别 方法 系统 | ||
1.一种基于REF-PSO特征提取的异常加密流量识别方法,包括:
进行流量清洗并将清洗后的流量进行流量聚合;
进行特征提取,利用Relief F算法滤除权重较低的流量特征,并通过选取权重较高的流量特征将粒子群初始化后经PSO优化算法获取最优特征子集;
将处理好的流量数据划分成训练数据集和测试数据集;
使用所述训练数据集进行模型训练调优参数,利用所述测试数据集使用调优参数后的模型进行测试;以及
将流量识别为正常加密流量和异常加密流量。
2.如权利要求1所述的方法,其特征在于,进行流量清洗并将清洗后的流量进行流量聚合的步骤包括清理读取的数据报文中的VLAN字段,将残缺的数据报文从原始数据包中清除,以及将五元组相同的数据包聚合成网络流。
3.如权利要求1所述的方法,其特征在于,特征提取步骤所提取的特征来源于Moore特征集,进行特征提取包括权重分配和特征优化,利用Relief F算法给Moore特征集中与数据包的数量、长度,流的持续时间及其统计特征相关的特征分配权重,去除权重较小的特征,选取权重较高的特征用于PSO算法粒子群初始化,计算粒子的适应度,根据粒子的适应度更新粒子的速度和位置,在达到最大迭代次数或适应度值不变时输出最优特征子集。
4.如权利要求1所述的方法,其特征在于,所述训练数据集和所述测试数据集的划分比例为2:1。
5.如权利要求1所述的方法,其特征在于,在模型训练中通过对数据集样本进行参数统计分析得出最优参数。
6.如权利要求1所述的方法,其特征在于,将流量识别为正常加密流量和异常加密流量是通过XGBoost二分类器进行的,所述方法进一步包括,通过XGBoost多分类器将识别的所述异常加密流量按照恶意软件的类型进行划分。
7.一种基于REF-PSO特征提取的异常加密流量识别系统,包括数据处理模块和异常流量识别模块,其中:
所述数据处理模块包括用于进行流量清洗和流量聚合的预处理模块、用于特征提取的特征提取模块、以及用于数据集划分的数据集划分模块;
所述异常流量识别模块包括模型训练模块和测试模块,
其中所述特征提取模块利用Relief F算法滤除权重较低的流量特征,并通过选取权重较高的流量特征将粒子群初始化后经PSO优化算法获取最优特征子集。
8.如权利要求7所述的系统,其特征在于,所述特征提取模块利用Relief F算法给Moore特征集中与数据包的数量、长度,流的持续时间及其统计特征相关的特征分配权重,去除权重较小的特征,选取权重较高的特征用于PSO算法粒子群初始化,计算粒子的适应度,根据粒子的适应度更新粒子的速度和位置,在达到最大迭代次数或适应度值不变时输出最优特征子集。
9.如权利要求7所述的系统,其特征在于,所述异常流量识别模块将流量识别为正常加密流量和异常加密流量,并将识别的所述异常加密流量按照恶意软件的类型进行划分。
10.如权利要求7所述的系统,其特征在于,所述预处理模块清理读取的数据报文中的VLAN字段,将残缺的数据报文从原始数据包中清除,并将五元组相同的数据包聚合成网络流。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天翼数字生活科技有限公司,未经天翼数字生活科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110967661.1/1.html,转载请声明来源钻瓜专利网。