[发明专利]一种基于集成学习的加密流量识别方法有效
申请号: | 202010143787.2 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111385145B | 公开(公告)日: | 2023-04-25 |
发明(设计)人: | 翟江涛;崔永富;林鹏;吉小鹏;石怀峰;张艳艳;付章杰 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L43/0876;H04L43/026;H04L47/2483;H04L47/2441 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 柏尚春 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 集成 学习 加密 流量 识别 方法 | ||
1.一种基于集成学习的加密流量识别方法,其特征在于,包括以下步骤:
(1)数据集采集:抓取网络流量,生成会话,通过五元组对流量过滤分流获取原始实验数据集;
(2)数据预处理:读取数据流,截断数据,并进行归一化处理;
(3)平衡数据集:采用SMOTE算法,以一定概率选用样本点周围的点,对不平衡数据集进行处理,其中,选点原则为欧式距离越近,选用概率值越大,欧式距离越远则概率值越小,呈指数下降趋势,具体包含以下步骤:
(31)设训练集的少数类的样本数为T,目标合成少数类到NT个新样本,N为正整数,少数类的一个样本的特征向量为Xi,i∈{1,...,T};
(32)在少数类的全部T个样本中用欧氏距离找到样本Xi的k个近邻,记为xi(near),near∈{1,...,k};
(33)这xi(near)中选择概率值最大的一个样本xi(nn),再生成一个0到1之间的随机数ζ1,从而合成一个新样本Xi1,其中Xi1=Xi+ζ1*(Xi(nn)-Xi);
(34)将步骤(33)重复进行N次,从而可以合成N个新样本:Xi(new),new∈1,...,N;
(35)对全部的T个少数类样本进行步骤(32)~(34)操作,完成为少数类合成NT个新样本;
(4)自动提取特征:利用堆栈式自动编码器模型自动提取特征;
(5)识别流量:将自动提取的特征输入集成学习算法识别目的加密流量;即将特征输入二级分类器Kmeans聚类,并对聚类不纯净的簇其内部使用基于遗传算法改进的随机森林CGA-RF分类器进行分类,通过交叉验证方式调试分类器参数,得到最优的分类器模型并决策评估,其中CGA-RF算法包含以下步骤:
(51)用训练集构建一定数量的决策树,组成原始的决策树集合;
(52)根据选择性集成的思路,从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;
(53)利用遗传算法迭代多次得到最优的随机森林模型。
2.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(1)具体为:其中对于TCP流,从发起连接的三次握手的SYN包开始,到断开连接的FIN包或RST包为结束;对于UDP流,以第一个数据包的到达为开始,如果两个数据包到达的时间间隔超过60s,则认为数据流结束。
3.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(2)具体为:
(21)读取数据流,判断数据流长度是否大于n个字节;
(22)若长度大于等于n个字节,进行去除数据链路层和UDP头部填充0的操作;
(23)若长度小于n个字节进行数据包填充0的操作;
(24)对提取的数据进行归一化处理。
4.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(4)具体包括以下步骤:
(41)给定初始输入X,采用无监督方式训练第一层自动编码器V,输出为Y,设定输入X和输出Y的损失函数,即重构误差,并获得最小化重构误差;
(42)将第一层自动编码器隐含层的输出Y作为第二个自动编码器的输入,采用以上同样的方法训练自动编码器Z;
(43)重复(42)直到初始化完成所有自动编码器;
(44)将最后一个堆栈式自动编码器的隐含层输出作为分类器的输入,然后采用有监督的方法训练分类器的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143787.2/1.html,转载请声明来源钻瓜专利网。