[发明专利]一种基于自适应特征分类的加密流量识别方法、存储器和处理器在审
申请号: | 202110911992.3 | 申请日: | 2021-08-10 |
公开(公告)号: | CN113642017A | 公开(公告)日: | 2021-11-12 |
发明(设计)人: | 王艺霖;杜佳佳;王安平 | 申请(专利权)人: | 克拉玛依和中云网技术发展有限公司 |
主分类号: | G06F21/60 | 分类号: | G06F21/60;G06K9/62;G06N3/12;G06N20/00 |
代理公司: | 南京九致知识产权代理事务所(普通合伙) 32307 | 代理人: | 齐棠 |
地址: | 834000 新疆维吾尔自治*** | 国省代码: | 新疆;65 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 自适应 特征 分类 加密 流量 识别 方法 存储器 处理器 | ||
本发明针提供了一种自适应特征分类的加密流量识别方法、存储器和处理器,包括以下步骤:数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;数据集预处理:读取数据流,截断数据,并进行归一化处理;平衡数据集:采用ADASYN算法对不平衡数据集进行处理;从特征中提取最优化特征集;识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。本发明可以消除冗余和不相关特征,增强分类模型的识别能力,高效识别加密流量。
技术领域
本发明涉及网络安全领域,具体涉及一种基于自适应特征分类的加密流量识别方法、存储器和处理器。
背景技术
随着大数据时代的到来,大众对于数据保护的意识也愈加强烈,半数的在线流量均被加密。对于特定类型的流量,数据加密已经成为保护隐私的重要手段之一。
流量加密在无意间也给网络安全带来了新的隐患。加密能够像隐藏其他信息一样隐藏恶意流量,从而带来一系列蠕虫、木马和病毒。这意味着加密是一把双刃剑,保护隐私的同时也让不法分子有了可乘之机。因此加密流量识别的意义不言而喻。
加密流量的识别目前方法主要有6类:基于有效负载特征字段匹配的识别方法、基于机器学习的方法、基于主机行为的识别方法、基于数据分组分布的方法、基于负载随机性的方法以及多种策略结合的方法,其中最常用的是基于机器学习的分类方法,但是此方法仍没有解决加密流量识别中特征选择存在的度量指标单一和类别不平衡问题,而且加密网络流量随时间推移和网络环境变化而发生网络流特征和分布变化,导致基于机器学习的分类模型适用性和精度下降,使得泛化能力下降。
发明内容
本发明针对加密流量识别中特征选择存在的度量指标单一和类别不平衡等缺点,提供了一种自适应特征分类的加密流量识别方法,可以消除冗余和不相关特征,增强分类模型的识别能力,高效识别加密流量。
一方面,本发明的基于自适应特征分类的加密流量识别方法,包括以下步骤:
S100、数据集采集:抓取网络流量,生成会话,对流量过滤分流获取原始实验数据集;
S200、数据集预处理:读取数据流,截断数据,并进行归一化处理;
S300、平衡数据集:采用ADASYN算法对不平衡数据集进行处理;
S400、从特征中提取最优化特征集;
S500、识别流量:将最优化特征集输入机器学习算法,识别目的加密流量。
具体的,所述特征采用堆栈式自动编码器提取。
具体的,所述最优化特征集采用启发式搜索方法自动提取。
具体的,机器学习算法模型是基于遗传算法改进的随机森林模型。
具体的,所述算法模型建立包括以下步骤:用训练集构建决策树,组成原始的决策树集合;从原始的决策树集合中筛选出性能更优的决策树,构成新的决策树集合;利用遗传算法迭代多次,得到最优的随机森林模型。
另一方面,本发明还提供一种存储器,用于存储软件,其中,所述软件用于执行上述的方法。
另一方面,本发明还提供一种处理器,用于执行软件,其中,所述软件用于执行上述方法。
与现有技术相比,本发明具有如下有益效果:本发明解决了由于样本类别不平衡造成模型欠拟合或过拟合的问题,识别率高,误报率低,适用于对数据集的类别不平衡性和特征提取困难的加密流量识别。
附图说明
图1为本发明的流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于克拉玛依和中云网技术发展有限公司,未经克拉玛依和中云网技术发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110911992.3/2.html,转载请声明来源钻瓜专利网。