[发明专利]一种基于深度降噪自编码网络的恶意域名检测方法在审
申请号: | 202010686940.6 | 申请日: | 2020-07-16 |
公开(公告)号: | CN111935099A | 公开(公告)日: | 2020-11-13 |
发明(设计)人: | 赵宏;王伟杰;孔东一;岳鲁鹏;郭岚;郑厚泽;傅兆阳;刘璐;常有康;党育;马栋林 | 申请(专利权)人: | 兰州理工大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 广州蓝晟专利代理事务所(普通合伙) 44452 | 代理人: | 栾洋洋;丁海燕 |
地址: | 730050 甘肃*** | 国省代码: | 甘肃;62 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 编码 网络 恶意 域名 检测 方法 | ||
1.一种基于深度降噪自编码网络的恶意域名检测方法,其特征在于,包括步骤
S1:将域名的分布式表征作为输入,构造单层自编码网络,将输入数据压缩后重构输出,通过输入与输出数据之间的误差,训练单层自编码网络;
S2:在单层自编码网络的输入数据中加入噪声,通过学习输入数据与输出数据之间的误差,去除噪声,形成单层降噪自编码网络;
S3:通过叠加多个单层降噪自编码网络,构造深度降噪自编码网络;
S4:逐层训练深度降噪自编码网络,对域名的分布式表征进行逐层压缩,提取域名的多维字符特征;
S5:根据深度降噪自编码网络提取的域名的多维字符特征,使用随机森林分类算法对待测域名进行检测,识别其中的恶意域名。
2.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S1中所述的单层自编码网络的构造与训练包括步骤:编码和解码,编码和解码的计算如公式(1)和公式(2)所示:
h=f(x)=σ1(Wx+p) (1)
其中,f和g分别表示编码阶段和解码阶段的映射函数;x和分别表示网络的输入和输出;h为压缩后的数据;W和p分别表示编码阶段的权重和偏置;WT和q分别表示解码阶段的权重和偏置;σ1和σ2分别表示编码和解码阶段的激活函数。
3.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S1所述的输入与输出数据之间的误差采用均方误差损失函数,计算如公式(3)所示:
其中,表示输入数据x与输出数据之间的误差,m表示训练样本的个数。
4.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S2所述的单层自编码网络利用随机映射函数将输入域名的某一字符进行随机替换,形成噪声,训练单层降噪自编码网络,增强网络的鲁棒性。
5.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S4中深度降噪自编码网络通过逐层训练,对输入域名的分布式表征数据进行逐层压缩,提取域名的多维字符特征,深度降噪自编码网络构造与训练实现包括步骤
S41:按照单层降噪自编码网络的训练方式进行无监督训练,得到第一层网络的参数,然后将第一层网络的输出作为第二层网络的输入,以同样的无监督训练方法对第二层网络进行训练,得到第二层网络的参数,以此类推,对网络的其余层进行训练,得到这些层的参数;
S42:在深度降噪自编码网络的末层加装分类器,将深度降噪自编码网络的末层输出作为分类器的输入,对域名进行正常域名和恶意域名的分类;
S43:利用带标签域名对深度降噪自编码网络进行有监督训练,优化网络各层参数,提高域名多维字符特征提取的准确率。
6.如权利要求1或6所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S4中所述的多维字符特征为18维字符特征。
7.如权利要求1所述的基于深度降噪自编码网络的恶意域名检测方法,其特征在于,步骤S5所述的随机森林分类算法实现包括步骤
S51:用n表示训练样本总个数,m表示提取的域名字符特征个数;
S52:输入域名字符特征数目m′,用于确定决策树上一个节点的决策结果,其中m′小于m;
S53:从n个训练样本中以有放回抽样的方式,取样n次,形成一个训练集,并用未抽到的样本作预测,评估决策误差;
S54:对于每一个节点,随机选择m′个特征,决策树上每个节点的决定都是基于该类特征,根据选择的m′个特征,计算最佳的分裂方式。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于兰州理工大学,未经兰州理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010686940.6/1.html,转载请声明来源钻瓜专利网。