[发明专利]一种多分类器自适应融合的HTTPS加密流量分类方法有效
申请号: | 202110306256.5 | 申请日: | 2021-03-23 |
公开(公告)号: | CN113141349B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 陈铁明;呼延东铎;蒋建可;宋琪杰;顾国民 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L47/2441;G06K9/62;G06F21/60;H04L67/02 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分类 自适应 融合 https 加密 流量 方法 | ||
1.一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述方法包括以下步骤:
步骤1、获取关于HTTPS恶意攻击流量的数据集,进行解析并构建连接4元组,即源IP、目标IP、目标端口和协议;
步骤2,基于步骤1所提取的数据集进行随机化后提取训练样本和测试样本的特征,包括连接特征、SSL特征和证书特征;
步骤3,以步骤2所得分量训练子数据集和分量测试子数据集训练样本训练并调整分量分类器参数直到分量分类器达到一个较好的效果,然后采用训练后的分量分类器对步骤2所得待测子数据集S′t进行分类;所述分量分类器包括基于一对多构建的SVM分类器、基于决策树的分类器、基于k最近邻算法KNN的分类器;
步骤4,计算各分量分类器的每个类别的判别结果在每个待识别样本最终类别结果的权值;标记需要进行结果融合的分类器集合为R={R1,R2,R3},其中R1,R2,R3分别表示SVM分类器、决策树分类器、KNN分类器;任一分类器标记为Ru,u的取值为1、2、3,计算每个待识别样本的各分量分类器的总权值;
步骤5,根据步骤3各分量分类器所得分类结果及步骤4所得各分量分类器在最终分类判别结果所占权值进行加权分类,得到最终融合分类器判别分类p,计算公式如下:
步骤6,以步骤5所得融合分类器的结果,以最大测量值原则作为融合决策规则,得到融合分类器对每个待测样本的最终分类结果;
所述步骤2中,各类特征详细信息如下所示:
所述连接特征是来自连接记录的特征,描述与证书和加密无关的通信流的常见行为;
所述SSL特征是来自SSL记录的特征,描述了SSL握手和加密通信的信息;
所述证书特征是来自证书记录的特性,描述了web服务人员在SSL握手期间提供给我们的证书的信息;
设数据集为S={xt,yi}(1≤t≤N,1≤i≤m),其中xt指样本属性,yi指对应的标签数据,即该条数据对应于第i个分类,N是数据集总样本数,m是分类总数;同时,xt={t1,…,tα,tα+1,…,tβ,tβ+1,…,tγ},表示每个训练样本xt拥有γ维特征,其中1-α维特征表示连接特征,α+1-β维特征表示SSL特征,β+1-γ维特征表示证书特征;
分别基于1-α维特征、α+1-β维特征和β+1-γ维特征取出基于连接特征、SSL特征、证书特征的三类特征的子数据集Scon,Sssl,Scer,
步骤2.1,分别对Scon,Sssl,Scer使用Z-score标准化方法进行归一化,并合并生成新的全体特征数据集S′,归一化步骤及公式如下:
如上,以子数据集Scon为例,表示该子数据集所有变量的平均数,σ为数据集的标准差,M为子数据集所包含的特征维数,分量子数据集与完整数据集的数据数量一样,均为N,分别计算分量子数据集的平均数、标准差,然后根据如下公式对子数据集进行Z-score标准化,
然后,根据归一化完成的三个分量子数据集进行横向拼接合并,并结合原数据集中每条数据的标签生成N×(γ+1)维新数据集S′,即
S′=Scon+Sssl+Scer
步骤2.2,按照7∶2∶1从数据集S′中取出训练子数据集、测试子数据集、待检测子数据集S′t,进而,根据训练子数据集及测试子数据集分别得到分量训练子数据集S′con,S′ssl,S′cer和分量测试子数据集S″con,S″ssl,S″cer;
所述步骤3中,,包括以下操作:
用训练样本的连接特征子数据集S′con、S″con训练基于SVM算法的多分类器,用训练后所得的SVM分类器对待测子数据集S′t的连接特征进行分类,获得SVM分类器对基于连接特征所判定的分类的概率输出,记为pcon={pj1,…,pji,…,pjm}(1≤i≤m,1≤j≤q),m为类别总数量,q为待测样本总数量,pji表示第j个验证样本属于类别ci的概率;
用训练样本的SSL特征子数据集S′ssl、S″ssl训练基于KNN的分类器,用训练后所得到的KNN分类器对待测子数据集S′t的SSL特征进行分类,得到KNN分类器对基于SSL特征所判定的分类的概率输出,记为pssl={pj1,…,pji,…,pjm},1≤i≤m;
用训练样本的证书特征子数据集S′cer、S″cer训练基于决策树的分类器,用训练后的决策树分类器对待测子数据集S′t的证书特征进行分类,得到决策树分类器对基于证书特征所判定的分类的概率输出,记为Pcer={pj1,…,pji,…,pjm},1≤i≤m;
所述步骤4包括以下步骤:
步骤4.1,首先从数据集S′中去除待检测子数据集S′t后获得数据集S″,然后将m类重新组合为2类,分别是类别ci(1≤i≤m)、co,其中类别co由除类别ci外m-1个类别合并而成;
S″=S′-S′t
S″={xt,yo},1≤t≤N,1≤o≤2
步骤4.2,使用基于互信息的特征选择法计算数据集S″的γ维特征进与分类结果的相关度,得到每一维特征在类别{ci,co}这个二分类情况下的相关度we,1≤e≤γ,即认为该维特征对区分类别ci的相关度,进而,分别计算连接特征、SSL特征和证书特征相对于类别ci的权重conweight,sslweight,cerweight,亦为各分量分类器Ru在融合结果中的权重,计算公式如下:
步骤4.3,重复4.1、4.2步骤m次,得到表示相对于每一个分类ci,连接特征、SSL特征和证书特征所对应的权值。
2.如权利要求1所述的一种多分类器自适应融合的HTTPS加密流量分类方法,其特征在于,所述步骤1中,构建过程如下:
步骤1.1,使用BroIDS对数据集的pacp文件进行深度包解析,获取通信日志、SSL协议日志、证书日志文件;
所述通信日志每一行聚合一组数据包,并描述两个端点之间的连接,连接记录包含IP地址、端口、协议、连接状态、数据包数量和标签信息;
所述SSL协议日志描述了SSL/TLS握手和加密连接建立过程,包含SSL/TLS版本、使用的密码、服务器名称、证书路径、主题和证书发行者;
所述证书日志的每一行都是一个证书记录,用来描述证书信息,如证书序列号、常用名称、时间有效性、主题、签名算法、以位为单位的密钥长度;
步骤1.2,通过连接日志中的唯一键,SSL协议日志中的唯一键,ssl协议日志中的证书id键值,证书日志文件中的id键值进行连接,构建4元组,即源IP、目标IP、目标端口和协议,并根据聚合结果对4元组在三个日志文件中的对应各项特征进行提取。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110306256.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于智能控制的翻转机构
- 下一篇:一种高牢度分散染料组合物和染料制品