[发明专利]一种对网络流量识别分类的方法有效
申请号: | 202010341791.X | 申请日: | 2020-04-27 |
公开(公告)号: | CN111565156B | 公开(公告)日: | 2023-07-07 |
发明(设计)人: | 崔弘;祝远鉴;汪晓猛;汪禄 | 申请(专利权)人: | 南京烽火星空通信发展有限公司 |
主分类号: | H04L47/2441 | 分类号: | H04L47/2441;H04L47/2483;H04L43/028;H04L65/60 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 楼高潮 |
地址: | 210019 江苏省南京市建*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网络流量 识别 分类 方法 | ||
1.一种对网络流量识别分类的方法,其特征在于,包括如下步骤:
步骤1,利用改进的稀疏自编码神经网络对训练样本进行学习,得到具有区分性的样本会话特征向量;
步骤2,在步骤1的基础上采用改进的Kmeans聚类算法训练,得到最终的分类模型;
步骤3,利用分类模型对网络流量进行分类;
步骤1包括:
步骤1-1,集多媒体流量数据,保存为Pcap文件,包括图片、音频、视频:对于所有图片的Pcap文件,以五元组为单位将图片流量拆分成单个会话保存,按照特征项计算特征点,所有特征点形成会话特征向量,按照上述方法对音频、视频执行同样操作,从而形成训练样本集,数学符号表示为:X=(x1,...,xN)∈RD*N,D为单个样本的特征维度,N为样本个数,xN表示第N个样本,X是训练样本集合,RD*N是指D*N的向量空间;
步骤1-2,将会话特征向量输入到稀疏自编码神经网络中进行训练,过程如下:
对于样本xi,iN,第一层隐藏层编码为:
z=s(Wxi+b) (1)
W是隐藏层的权重,b隐藏层偏置;
第二层输出层为重构的数据:
x'i=g(W′z+b′) (2)
W′是输出层的权重,b′是输出层偏置,xi'是第二层输出层的输出;
其中s采用激活函数为Sigmoid函数,g采用激活函数为Relu函数:
g(y)=max(0,y) (4)
其中,y为对应各层的输出,z表示自编码器中隐藏层单元;
给定一组样本xi∈[0,1]D,1≤i≤N,其重构错误L为:
其中λ为正则化项系数,
稀疏自编码神经网络采用的代价函数Jloss为:
其中β是惩罚因子权重;p是稀疏参数;M是隐藏层神经元个数;表示隐藏层第j个神经元的平均活跃度;KL代表是K-L距离算法,K-L距离算法是衡量两个相同事件空间里的两个概率分布差异情况,即代表是p到的K-L距离;
通过BP反向传播算法进行学习训练样本集中的所有样本使代价函数Jloss损失最小,此时输出层的特征作为新特征输出;
步骤1-2中,
其中表示隐藏层第j个神经元的平均活跃度,zj(xi)表示第i个样本在隐藏层第j个神经元输出值;
步骤2包括:将步骤1-2得到的新特征进行Kmeans聚类算法模型学习,得到最终的分类模型;
所述Kmeans聚类算法模型如下:
其中是第i类样本的均值向量,x是每个会话的特征向量,k为簇数,Ci是第i类样本集合,ni是第i类样本个数;
所述将步骤1-2得到的新特征通过Kmeans聚类算法模型学习,具体包括如下步骤:
步骤2-1,随机确定k个初始化点作为起始质心;
步骤2-2,将训练样本集中的每一个样本点分配到距离其最近的质心所对应簇,如果距离大于阈值,则删除所述样本点;
步骤2-3,每个簇的质心更新为所述簇的所有点的平均值;
步骤2-4,循环执行步骤2-1~步骤2-3,直到所有簇的质心点收敛,迭代结束;
步骤2-5,输出每个簇的质心点;
步骤2-6,通过Kmeans聚类算法模型学习后,聚成4簇,分别为视频、音频、图片,其他,从而得到最终的分类模型;
步骤3包括:对于待分类的会话流xunknown,通过最近邻分类器识别出所述会话流的标签:
其中ci为样本标签,ui为最终的分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京烽火星空通信发展有限公司,未经南京烽火星空通信发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010341791.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种快速蛋白染色液
- 下一篇:有向传感器网络优化部署系统和方法