[发明专利]DGA域名检测模型的训练方法、系统、应用方法及系统在审
申请号: | 202211104087.8 | 申请日: | 2022-09-09 |
公开(公告)号: | CN115758263A | 公开(公告)日: | 2023-03-07 |
发明(设计)人: | 王海泉;白晓杉;池程;郑乔露 | 申请(专利权)人: | 北京航空航天大学;中国信息通信研究院 |
主分类号: | G06F18/2431 | 分类号: | G06F18/2431;G06F18/214;G06F40/30;G06F40/279;G06F16/33;G06N3/0464;G06N3/0442 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 刘芳 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | dga 域名 检测 模型 训练 方法 系统 应用 | ||
本发明涉及一种DGA域名检测模型的训练方法、系统、应用方法及系统,属于域名检测技术领域,训练方法包括:获取域名数据;对域名数据按照字符进行划分,得到域名字符序列;对域名数据进行分词处理,得到域名分词序列;为域名分词序列中每一元素标注语义标签,得到语义标签序列;将域名字符序列与语义标签序列合并,得到域名字符拓展序列;基于卷积神经网络和长短期记忆神经网络,构建DGA域名检测模型;根据DGA域名检测模型的输出以及域名字符拓展序列对应的域名的实际类别,确定损失函数;根据损失函数优化DGA域名检测模型的参数,以对DGA域名检测模型进行训练,得到训练好的DGA域名检测模型,能够提升域名检测精度和效果。
技术领域
本发明涉及域名检测技术领域,特别是涉及一种DGA域名检测模型的训练方法、系统、应用方法及系统。
背景技术
DGA(Domain Generation Algorithm)域名是指根据特定算法随机生成的恶意域名,这种域名通常用于组建僵尸网络等网络攻击活动。因此,对DGA域名进行检测很有必要。目前,在DGA域名检测方法中,基于域名字符特征的DGA域名检测方法依靠其对数据依赖小,检测响应速度快等优点,逐渐成为了一种主流的检测方法。该方法整体流程可以分为以下四个部分:一、将域名以单词或字符为粒度进行划分,各部分构成输入序列;二、对输入序列进行编码,使用预训练模型或神经网络词嵌入层将域名的各部分映射到对应词向量上;三、使用循环神经网络(RNN)、卷积神经网络(CNN)等深度学习网络对域名特征进行进一步挖掘;四、使用全连接神经网络,Softmax或Sigmoid作为激活函数,将模型输出的高维特征映射到标签分类上。在构建好由DGA域名和合法域名组成的数据集,按照上述流程进行分类学习,训练得到模型后,后续即可使用该模型进行DGA域名的检测。然而,该方法对于基于单词表生成的DGA家族和域名长度较短(除去顶级域名,剩余域名部分长度为5-10个字符)的DGA家族的检测精度较低,检测效果较差。
发明内容
本发明的目的是提供一种DGA域名检测模型的训练方法、系统、应用方法及系统,能够提升域名的检测精度和检测效果,尤其是针对基于单词表生成的DGA家族和域名长度较短的DGA家族的域名。
为实现上述目的,本发明提供了如下方案:
一方面,本发明提出了一种DGA域名检测模型的训练方法,所述训练方法包括:
获取域名数据,所述域名数据包括DGA域名数据和合法域名数据,所述DGA域名数据包括基于单词表生成的DGA家族域名和域名字符数量小于预设阈值的DGA家族域名;
对所述域名数据按照字符进行划分,得到域名字符序列;
对所述域名数据进行分词处理,得到域名分词序列;
为所述域名分词序列中每一元素标注语义标签,得到语义标签序列;
将所述域名字符序列与所述语义标签序列合并,得到域名字符拓展序列;
基于卷积神经网络和长短期记忆神经网络,构建DGA域名检测模型,所述DGA域名检测模型包括依次连接的输入层、词嵌入层、多层卷积层、全连接层、LSTM层和输出层,所述词嵌入层用于对输入的域名字符拓展序列进行编码得到对应的词向量矩阵;所述多层卷积层、全连接层和LSTM层用于从所述词向量矩阵中提取域名特征,所述输出层用于根据域名特征输出域名检测结果;
将所述域名字符拓展序列输入DGA域名检测模型;
根据所述DGA域名检测模型的输出以及域名字符拓展序列对应的域名的实际类别,确定损失函数;
根据所述损失函数优化DGA域名检测模型的参数,以对所述DGA域名检测模型进行训练,得到训练好的DGA域名检测模型。
可选地,所述对所述域名数据按照字符进行划分,得到域名字符序列,具体包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学;中国信息通信研究院,未经北京航空航天大学;中国信息通信研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211104087.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种发光橡皮擦及其制备方法
- 下一篇:图像处理系统及其方法