[发明专利]一种基于DNS流量的自适应恶意域名检测方法有效
申请号: | 201711108716.3 | 申请日: | 2017-11-11 |
公开(公告)号: | CN107786575B | 公开(公告)日: | 2020-07-10 |
发明(设计)人: | 孟坤;徐硕;李淑琴;丁濛;罗江 | 申请(专利权)人: | 北京信息科技大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12 |
代理公司: | 北京华仲龙腾专利代理事务所(普通合伙) 11548 | 代理人: | 李静 |
地址: | 100192 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 dns 流量 自适应 恶意 域名 检测 方法 | ||
1.一种基于DNS流量的自适应恶意域名检测方法,其特征在于,包括如下步骤:
步骤1),搜集第三方平台提供的黑白名单样本集,并依照域名结构特征列表,使用黑白名单样本集作为训练集基线,选择随机森林分类器训练域名结构检测模型;
步骤2),提取元数据中协议为DNS的流量数据,对域名数据进行数据预处理操作,并将其作为域名结构检测模型的输入;
步骤3),使用域名结构检测模型对步骤2)中的输入进行分类,对判定为恶意的域名进行Whois查询及追踪验证;同时,抽取同一批次经验证后的恶意域名与Alexa前10万域名对应的步骤2)中的流量数据;
步骤4),依据流量特征列表,使用步骤3)得到的流量数据进行规则过滤,将处理后的结果作为训练集,选择Adaboost分类器训练流量检测模型;
步骤5),将待检测的域名与DNS的流量数据经数据预处理后,分别作为加载的域名结构检测引擎和流量检测引擎的输入,得到预测结果;
步骤6),将流量检测引擎判定为恶意域名的数据集,定时更新域名结构检测引擎的训练集黑名单,形成自适应恶意域名检测模式;并对域名结构检测引擎判定为恶意域名的这部分域名全部提交给其它检测模块,其它检测模块包括隐蔽通道检测与异常行为检测模块。
2.根据权利要求1所述的基于DNS流量的自适应恶意域名检测方法,其特征在于,步骤1)中,域名结构检测模型的构建包括:
1-1,黑白名单样本集包括白名单与初始化黑名单,白名单源于开源第三方平台,所述初始化黑名单源于DGA家族算法生成及开源第三方平台;
1-2,域名结构特征列表分为两类:域名基础特征和域名高级特征;其中域名基础特征包含随机标签长度、随机标签数字比例、随机标签字母比例、随机标签重复字母比例、随机标签字符熵;域名高级特征包含随机标签连续性与分散性、随机标签的N-gram频率、随机标签的字符转换概率、随机标签布局代价。
3.根据权利要求2所述的基于DNS流量的自适应恶意域名检测方法,其特征在于,随机标签的定位方法是使用包含No-IP和3322.org所提供的后缀的Public Suffix List识别出TLD,使用TLD划分出随机标签,其中,一个域名的随机标签是指剔除该域名前缀和该域名TLD后的剩余内容;
随机标签数字比例是随机标签中数字0-9的个数与随机标签长度的商;
随机标签字母比例是随机标签中大小写字母a-z和A-Z的个数与随机标签长度的商;
随机标签重复字母比例是将随机标签转为小写后,a-z出现次数超过一次的字母个数之和与随机标签长度的商;
随机标签字符熵计算公式如下,设Pi表示第i种字符出现的次数与随机标签长度的商,domain_entropy表示随机标签字符熵:
domain_ent ropy=-∑Pi*log2(Pi)
随机标签连续性与分散性是随机标签连续出现辅音字母和数字的数量与随机标签长度的商;
随机标签的N-gram频率包含三个属性,即相邻单字、相邻双字、相邻三字的平均排名;根据白名单的随机标签构建相邻单字/相邻双字/相邻三字排名列表,在待检测域名按三种方式切分后,依次查找排名列表,累加求和后计算平均排名;
随机标签的字符转换概率计算步骤如下:
A1)根据白名单的随机标签集合的相邻双字构建一条马尔可夫链;
A2)提取将待检测域名的随机标签作为输入,按相邻双字划分,然后对转移矩阵匹配到的数值累乘得到结果;
随机标签布局代价计算过程如下:
B1)根据第三方平台提供的黑白样本随机标签构建一条马尔可夫链;
B2)提取将待检测域名的随机标签作为输入,根据已构建的马尔可夫链计算其字符转移概率;
B3)依据马尔可夫链,计算随机标签初始状态到终止状态的最大和最小通路;
B4)在满足一定约束条件状态下,根据最大和最小通路均值构成的阈值与字符转移概率判断布局代价是否合理。
4.根据权利要求1所述的基于DNS流量的自适应恶意域名检测方法,其特征在于,步骤2),数据预处理操作包括对白名单、内容分发网络、域名泛解析技术域名以及TOP-N的合法域名过滤,特征向量化归一化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京信息科技大学,未经北京信息科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711108716.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:移动终端的语音通信信源加密系统
- 下一篇:一种高效推送软件智能识别阻拦系统