[发明专利]一种基于累积数据包长度的网页加密流量特征提取方法有效
申请号: | 201811053659.8 | 申请日: | 2018-09-11 |
公开(公告)号: | CN109194657B | 公开(公告)日: | 2020-05-12 |
发明(设计)人: | 沈蒙;刘怡婷;陈偲祺;祝烈煌 | 申请(专利权)人: | 北京理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/08 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 毛燕 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于累积数据包长度的细粒度网页特征提取方法,属于网络服务安全技术领域。称为WPF,包括如下步骤:步骤1、获取加密流量数据集;步骤2、提取加密流量数据集的数据包长度并进行排序、提取数据包长度及上行数据包长度置0处理,得到累加后的数据包长度序列;步骤3、将累加后的数据包长度序列进行哈希运算,得到哈希后数据包序列;步骤4、基于哈希后数据包序列生成网页加密流量特征。1.本发明适用于SSL/TLS协议的加密网络通讯场景;本方法具有高准确率与高效性;可与传统机器学习算法相结合,构造网页流量分类器;具有特征维度低,计算过程简单,时间复杂度低,能实现在线网页流量检测,适用于投入实际应用的优势。 | ||
搜索关键词: | 一种 基于 累积 数据包 长度 网页 加密 流量 特征 提取 方法 | ||
【主权项】:
1.一种基于累积数据包长度的加密网页流量特征提取方法,其特征在于:包括如下步骤:步骤1、获取加密流量数据集;步骤1.1使用抓包工具抓取一个网页一次加载产生的SSL/TLS加密网络流量,其中抓包工具为Wireshark或Tshark中的一种,所述加密网络流量由若干个数据包组成,每个数据包中包括了以下信息:该数据包的捕获时间、源IP地址、目的IP地址、协议、数据包长度、交互端口号以及加密后数据包内容;步骤1.2对加密网络流量所包含的数据包进行过滤,滤除无用数据包,得出余下数据包;其中,所述的无用数据包是指TCP错误包以及校验和错误的数据包;步骤1.3将步骤1.2输出的余下数据包进行同源网络流归类,具体为:将具有相同交互IP地址、交互端口号和传输协议的数据包归类为一条流,再将余下数据包中的所有数据包进行处理,梳理成为多条网络流;其中,具有相同交互IP地址的数据包是指数据包中的源IP地址和目的IP地址是交互的;步骤1.4统计步骤1.3梳理的每条网络流的数据包数量,保留数据包数量最多的一条流,丢弃其他网络流;将所述数据包数量最多的一条流中的所有数据包组成一个集合,记为加密流量数据集;步骤2、提取加密流量数据集的数据包长度并进行排序、提取数据包长度以及上行数据包长度置0为主的处理,得到累加后的数据包长度序列;步骤2.1将加密流量数据集中的所有数据包按照该数据包的捕获时间先后顺序排列,得到网络流F;步骤2.2依次提取网络流F中的数据包长度,长度用p表示,pi代表第i个数据包的长度,其中,i的取值范围为1到N,因此,表示网络流F的数据包长度为(p1,......,pN);步骤2.3将网络流F中的上行数据包长度置为0,下行数据包长度保持不变;步骤2.4将网络流F中的前K个数据包的长度进行累加,Ki,其哈希公式为
使用v表示哈希值,vi=Hash(ai),哈希后的数据包序列用I表示,此时I=(v1,...,vn);步骤4、基于哈希后数据包序列生成网页加密流量特征,具体为:计算哈希后数据包序列I的众数vmax和该众数出现的次数kmax;使用(vmax,kmax)作为加密网络流F的特征。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811053659.8/,转载请声明来源钻瓜专利网。