[发明专利]一种基于集成学习的加密流量识别方法有效

专利信息
申请号: 202010143787.2 申请日: 2020-03-04
公开(公告)号: CN111385145B 公开(公告)日: 2023-04-25
发明(设计)人: 翟江涛;崔永富;林鹏;吉小鹏;石怀峰;张艳艳;付章杰 申请(专利权)人: 南京信息工程大学
主分类号: H04L9/40 分类号: H04L9/40;H04L43/0876;H04L43/026;H04L47/2483;H04L47/2441
代理公司: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 柏尚春
地址: 210044 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 集成 学习 加密 流量 识别 方法
【权利要求书】:

1.一种基于集成学习的加密流量识别方法,其特征在于,包括以下步骤:

(1)数据集采集:抓取网络流量,生成会话,通过五元组对流量过滤分流获取原始实验数据集;

(2)数据预处理:读取数据流,截断数据,并进行归一化处理;

(3)平衡数据集:采用SMOTE算法,以一定概率选用样本点周围的点,对不平衡数据集进行处理,其中,选点原则为欧式距离越近,选用概率值越大,欧式距离越远则概率值越小,呈指数下降趋势,具体包含以下步骤:

(31)设训练集的少数类的样本数为T,目标合成少数类到NT个新样本,N为正整数,少数类的一个样本的特征向量为Xi,i∈{1,...,T};

(32)在少数类的全部T个样本中用欧氏距离找到样本Xi的k个近邻,记为xi(near),near∈{1,...,k};

(33)这xi(near)中选择概率值最大的一个样本xi(nn),再生成一个0到1之间的随机数ζ1,从而合成一个新样本Xi1,其中Xi1=Xi1*(Xi(nn)-Xi);

(34)将步骤(33)重复进行N次,从而可以合成N个新样本:Xi(new),new∈1,...,N;

(35)对全部的T个少数类样本进行步骤(32)~(34)操作,完成为少数类合成NT个新样本;

(4)自动提取特征:利用堆栈式自动编码器模型自动提取特征;

(5)识别流量:将自动提取的特征输入集成学习算法识别目的加密流量;即将特征输入二级分类器Kmeans聚类,并对聚类不纯净的簇其内部使用基于遗传算法改进的随机森林CGA-RF分类器进行分类,通过交叉验证方式调试分类器参数,得到最优的分类器模型并决策评估,其中CGA-RF算法包含以下步骤:

(51)用训练集构建一定数量的决策树,组成原始的决策树集合;

(52)根据选择性集成的思路,从原始的决策树集合中筛选出性能较优的决策树,构成新的决策树集合;

(53)利用遗传算法迭代多次得到最优的随机森林模型。

2.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(1)具体为:其中对于TCP流,从发起连接的三次握手的SYN包开始,到断开连接的FIN包或RST包为结束;对于UDP流,以第一个数据包的到达为开始,如果两个数据包到达的时间间隔超过60s,则认为数据流结束。

3.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(2)具体为:

(21)读取数据流,判断数据流长度是否大于n个字节;

(22)若长度大于等于n个字节,进行去除数据链路层和UDP头部填充0的操作;

(23)若长度小于n个字节进行数据包填充0的操作;

(24)对提取的数据进行归一化处理。

4.根据权利要求1所述的基于集成学习的加密流量识别方法,其特征在于,所述步骤(4)具体包括以下步骤:

(41)给定初始输入X,采用无监督方式训练第一层自动编码器V,输出为Y,设定输入X和输出Y的损失函数,即重构误差,并获得最小化重构误差;

(42)将第一层自动编码器隐含层的输出Y作为第二个自动编码器的输入,采用以上同样的方法训练自动编码器Z;

(43)重复(42)直到初始化完成所有自动编码器;

(44)将最后一个堆栈式自动编码器的隐含层输出作为分类器的输入,然后采用有监督的方法训练分类器的参数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010143787.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top