[发明专利]基于特征增强的VPN流量WEB指纹识别方法有效
申请号: | 202010521565.X | 申请日: | 2020-06-10 |
公开(公告)号: | CN111835720B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 陈丹伟;王晶 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;G06N20/00;G06F18/214 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 姚姣阳 |
地址: | 210012 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 特征 增强 vpn 流量 web 指纹识别 方法 | ||
1.一种基于特征增强的VPN流量WEB指纹识别方法,其特征在于,包括如下步骤:
S1、抓取SSL/TLS隧道内的流量信息并加以保存;
S2、对所抓取的流量信息进行预处理,设置过滤规则、删除不符合过滤规则的流量信息,包括如下步骤:
使用流量抓包软件WireShark对原始数据集内的数据包进行处理,设置过滤规则、按照所述过滤规则对不符合条件的数据包进行删除、得到经过预处理后的原始数据集;
S3、根据流量密度完成激增周期特征提取,具体包括如下步骤:
S31、将所述原始数据集内的数据包转换为时间戳序列,所述时间戳序列内包含若干成对数据,所述成对数据包括一一对应的时间及数据包大小;
S32、将所述时间戳序列转换为在100ms非重叠窗口中计算出的比特率时间序列;
S33、以自适应的方法寻找特定阈值Ith,从所述比特率时间序列中提取高于特定阈值Ith的连续时间序列,将结果作为激增周期并加以输出;
S4、利用LightGBM算法、结合经过预处理的流量信息及所提取的激增周期特征,建立并训练识别模型,具体包括如下步骤:
S41、将经过预处理后的原始数据集按照2:1的比例划分为训练集和测试集;
S42、将LightGBM分类器的参数设置为默认值,将所述训练集作为LightGBM算法的数据对所述LightGBM分类器进行训练;
S43、调整所述LightGBM分类器的参数,再次将所述训练集作为LightGBM 算法的数据对所述LightGBM分类器进行训练,循环操作直至所述LightGBM分类器对所述训练集的应用类型识别效果达到预设值;
S44、使用测试集对所述LightGBM分类器的识别效果进行测试,若测试合格则结束流程,将所述LightGBM分类器作为识别模型;若测试不合格则返回S43,重复执行前序流程;
S5、将所得到的、经过训练的识别模型应用于WEB指纹识别过程中,最终完成WEB指纹识别。
2.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法,其特征在于,S1具体包括如下步骤:使用流量抓包软件WireShark在出口路由器上抓取SSL/TLS隧道内的流量信息,将所抓取的流量信息以pcap格式逐一保存为数据包,随后将全部数据包进行汇总、得到原始数据集。
3.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法,其特征在于,所述过滤规则包括:删除所述原始数据集内的非TCP数据包及纯ACK数据包。
4.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法,其特征在于,S33中所述以自适应的方法寻找特定阈值Ith,具体包括如下步骤:从可能的最大值开始、降序寻找阈值,直至寻找到某一阈值可以使突发周期覆盖80%以上的已传输流量信息。
5.根据权利要求1所述的基于特征增强的VPN流量WEB指纹识别方法,其特征在于:在所述激增周期中,连续时间序列按照其时序降序排列;所述激增周期中传输的字节总数为该激增周期的大小,所述激增周期的大小的矢量用作表示样本的特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010521565.X/1.html,转载请声明来源钻瓜专利网。