[发明专利]一种用于加密恶意流量的弱监督检测方法及系统有效

申请号：	202210628110.7	申请日：	2022-06-06
公开（公告）号：	CN114826776B	公开（公告）日：	2023-05-02
发明（设计）人：	齐法制;刘珺怡;王佳荣;颜田;陈刚	申请（专利权）人：	中国科学院高能物理研究所
主分类号：	H04L9/40	分类号：	H04L9/40;H04L47/2441;G06V10/764;G06V10/774;G06V10/82;G06N3/0464;G06N3/08
代理公司：	北京科迪生专利代理有限责任公司 11251	代理人：	金怡
地址：	100049 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种用于加密恶意流量监督检测方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于加密恶意流量的弱监督检测方法，其特征在于，包括：

步骤S1：采集网络数据流，对所述数据流分割成数据包并进行预处理后，转化成单通道灰度图片，以此构建训练集X_i，i∈[1,M]，M为数据包个数，并对X_i中部分样本进行标记，得到标记样本(X_labeled,Y)和未标记样本X_unlabeled；

步骤S2：构建和训练半监督生成对抗网络，包括：生成器G、判别器D和分类器C；其中，所述生成器G接收随机噪声矢量n，得到生成样本X_generated＝G(n)；将所述生成样本X_generated、所述训练集中的标记样本(X_labeled,Y)和未标记样本X_unlabeled一起输入所述判别器D,预测每类样本的分布概率，经过所述分类器C得到粗分类的X_i的包级分类结果；

步骤S3：构建基于多示例学习的卷积神经网络，包括：多示例学习标注模块、卷积神经网络模块、多示例池化模块和Ladder Network模块；将带有粗分类标签的X_i经过所述多示例学习标注模块，得到X_i的示例分割以及包级标签，再经过卷积神经网络模块，计算X_i中示例的得分，通过多示例池化模块赋予所述得分不同的权重，最后通过Ladder Network模块，预测得到细分类的X_i的示例级分类结果，具体包括：

步骤S31：将带有包级标签Y_i的X_i输入多示例学习标注模块，将包级标签Y_i映射到标签域即X_i被标记为正常0或可疑1：

令图片其中，m为X_i中示例个数；如果X_i对应的pcap数据包中包含至少一条恶意流量，表明X_i中包含至少一个正示例，则即X_i被标记为1，表示X_i为可疑数据包；如果X_i对应的pcap数据包中全部为正常流量，则即X_i被标记为0，表示X_i正常数据包，标签域与示例级标签间的关系表示如公式(5)所示：

其中，为X_i的示例级标签，表示正示例；

步骤S32：将被标记为可疑的X_i中的每个示例输入所述卷积神经网络的卷积层进行特征提取，并使用池化层将提取的特征转换为N维特征向量计算所述特征向量在每个维度的得分其中，k＝1,2,...,N；如公式(6)所示；基于所有示例的得分，共同构成score map：

其中，变换函数f_φ(·)将输入的转换为特征向量函数g_ψ(·)用于计算所述特征向量得分；φ、ψ均为所述卷积神经网络的参数；

步骤S33：将输入多示例池化模块，利用注意力机制将score map中的得分赋予不同权重进行聚合后得到聚合向量θ，θ及每个示例的注意力权重如公式(7)～(8)所示：

其中，W是基于多示例学习的卷积神经网络的参数；b是所述多示例池化模块的参数，ω_i是所述卷积层的中间特征向量；

步骤S34：将所述聚合向量θ输入基于Ladder Network的分类器，输出两个预测标签：有噪声的输出标签用于计算损失函数，无噪声的输出标签用于分类：

分类器输出预测类别的概率分布如公式(9)所示：

其中，为Ladder Network第l层与的第l-1层之间的权值，为非加噪编码器第l层的隐变量，T为转置；为的无噪声标签；其中，i∈[1,M]，j∈[1,m]，i∈[1,M]，L为Laddernetwork的层数；

步骤S35：构建总损失函数L_total：

构建监督损失函数L_supervised所述卷积神经网络产生的交叉熵损失，如公式(10)所示：

其中，表示第i个数据包的第j个示例的有噪声的输出标签；

构建非监督损失L_unsupervised由Ladder Network每层的重构误差产生，如公式(11)所示：