[发明专利]僵尸网络识别方法、装置及终端设备有效
申请号: | 202011403556.7 | 申请日: | 2020-12-04 |
公开(公告)号: | CN114666071B | 公开(公告)日: | 2023-09-05 |
发明(设计)人: | 周实奇;黄倚霄;钱湖海;钱成;周旭莹 | 申请(专利权)人: | 中国移动通信集团广东有限公司;中国移动通信集团有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 王思超 |
地址: | 510623 广东省广州市天*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 僵尸 网络 识别 方法 装置 终端设备 | ||
1.一种僵尸网络识别方法,其特征在于,包括:
对待处理的DNS报文日志进行风险识别,得到风险识别结果,所述DNS报文日志中包括多个域名信息,每个所述域名信息包括域名以及所述域名对应的源IP;
在所述风险识别结果指示所述DNS报文日志疑似恶意流量的情况下,基于预配置的DGA家族规则,确定所述DNS报文日志中各域名信息所属的DGA家族集合;
基于所述DGA家族集合以及所述源IP,对具有相同源IP的域名信息进行聚类,得到多个目标流量组;
分别统计各所述目标流量组中访问同一类DGA家族集合的源IP的数量;
在所述数量大于第一阈值、且访问无效返回占比大于第二阈值的情况下,确定所述源IP对应的网络为僵尸网络;
对待处理的DNS报文日志进行风险识别,得到风险识别结果,包括:
获取待处理的DNS报文日志;
对所述DNS报文日志包括的域名信息进行预处理,得到多个待识别语料;
根据所述待识别语料中包括的每个域名字母查询预配置的词向量矩阵,得到待识别向量;
将所述待识别向量输入预训练的DGA识别模型,得到风险识别结果。
2.如权利要求1所述的方法,其特征在于,所述DNS报文日志包括DNS请求日志和DNS响应日志。
3.如权利要求1所述的方法,其特征在于,对所述DNS报文日志包括的域名信息进行预处理,得到多个待识别语料,包括:
对所述DNS报文日志中包括的各所述域名信息进行标准化处理;
对标准化处理后的各所述域名进行分词处理,得到对应各所述域名信息的多个待识别语料。
4.如权利要求1所述的方法,其特征在于,根据所述待识别语料中包括的每个域名字母查询预配置的词向量矩阵,得到待识别向量之前,所述对待处理的DNS报文日志进行风险识别,得到风险识别结果,还包括:
将各所述待识别语料的长度处理为预定长度。
5.如权利要求1所述的方法,其特征在于,所述DGA识别模型的预训练过程包括:
获取用于训练数据集构建的多个域名信息;
对每个所述域名信息预处理,得到对应各所述域名的多个训练语料,每个所述训练语料包括域名样本和样本标签;
分别根据各所述训练语料中包括的每一个域名字母,依次查询预配置的词向量矩阵,得到与所述训练语料一一对应的多个一维词向量;
对所述多个一维词向量进行拼接,得到所述训练语料对应的目标向量;
基于各所述训练语料对应的目标向量,构建训练数据集;
利用所述训练数据集对预定神经网络模型进行训练,得到DGA识别模型。
6.如权利要求1所述的方法,其特征在于,对待处理的DNS报文日志进行风险识别,得到风险识别结果之前,所述方法还包括:
通过旁路镜像方式获取交换机流量信息;
通过DPI解析方式对所述交换机流量信息进行解析,得到所述DNS报文日志。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团广东有限公司;中国移动通信集团有限公司,未经中国移动通信集团广东有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011403556.7/1.html,转载请声明来源钻瓜专利网。