[发明专利]基于BiRNN深度学习的DGA域名检测方法在审
申请号: | 201910904014.9 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110807098A | 公开(公告)日: | 2020-02-18 |
发明(设计)人: | 袁明 | 申请(专利权)人: | 武汉智美互联科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62;G06N3/04;G06N3/08;H04L29/06 |
代理公司: | 北京汇信合知识产权代理有限公司 11335 | 代理人: | 王维新 |
地址: | 430000 湖北省武汉市东湖新技术开发区光谷大道*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 birnn 深度 学习 dga 域名 检测 方法 | ||
本发明公开了一种基于BiRNN深度学习的DGA域名检测方法,包括:对域名数据进行清洗,保留有效域名数据;将有效域名数据预处理为统一长度的一维向量;建立基于BiRNN的深度学习分类模型,将域名的字符转化为词向量,并输入BiRNN神经网络以提取域名的文本特征,利用全连接网络分类器进行分类;根据正常域名数据和DGA域名数据对应的分类结果训练深度学习分类模型;将新域名清洗和预处理后导入深度学习分类模型,判断新域名是正常域名或DGA域名。通过本发明的技术方案,无需大量特征工程,识别准确率达95%以上,整个过程是一个完整连续流程,实现了从输入原始域名到最终识别结果的端到端的检测,极大的提高了检测效率和检查准确度。
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种基于BiRNN深度学习的DGA域名检测方法。
背景技术
DGA(Domain generation algorithms)是一种利用伪随机字符来生成C&C域名,从而逃避域名黑名单检测的技术手段。DGA域名生成算法经常被各种恶意软件连接C2(command and control)服务器。恶意软件定期使用DGA算法生成为随机域名,有效绕过黑名单检测,尝试连接,寻找C2服务器。例如,一个由Cryptolocker创建的DGA生成域xeogrhxquuubt.com,如果计算机进程尝试其它建立连接,那机器就可能感染Cryptolocker勒索病毒。
域名黑名单通常用于检测和阻断这些域的连接,但对于不断更新的DGA算法并不奏效。安全人员可以通过收集样本以及对DGA进行逆向,来预测哪些域将来会被生成和预注册并将它们列入黑名单中。但DGA可以在一天内生成成千上万的域,因此我们不可能每天都重复收集和更新我们的列表。目前较为先进的方法是使用机器学习算法对大量正常和DGA域名进行训练建立模型,从而识别DGA域名。这方面主要专利有公开号为CN106992969A的基于域名字符串统计特征的dga生成域名的检测方法,以及公开号为CN105577660A的基于随机森林的dga域名检测方法,但是这样的机器学习方法需要做大量的特征工程,抽取域名的多个特征,比如域名长度、数字出现的频率、元音字母的频率、隐式马尔科夫概率、信息熵、相邻字符相似指数等等特征,这需要非常大的工作量和计算成本,同时检测准确率完全依赖于特征的处理,需要人工做大量的特征研究。而申请号为201910190127.7的一种基于CNN深度学习的DGA域名检测方法专利申请,采用CNN方法对DGA域名进行识别,采用多个滤波器进行特征提取,参数过多,模型过于庞大。
发明内容
针对上述问题中的至少之一,本发明提供了一种基于BiRNN深度学习的DGA域名检测方法,通过使用基于BiRNN的深度学习分类模型,通过大量数据的训练让深度学习分类模型自动寻找特征对正常域名和DGA域名进行分类,无需大量特征工程,将域名看作由字符组成的时间序列的数据,通过BiRNN神经网络结构提取域名文本特征,将文本特征输入全连接网络进行训练和分类从而实现对DGA域名的识别,识别准确率达95%以上。整个过程是一个完整连续流程,实现了从输入原始域名到最终识别结果的端到端的检测,极大的提高了检测效率和检查准确度。
为实现上述目的,本发明提供了一种基于BiRNN深度学习的DGA域名检测方法,包括:对收集的分别标记为正常域名和DGA域名的域名数据进行清洗,保留有效域名数据;将所述有效域名数据预处理为统一长度的一维向量;建立基于BiRNN的深度学习分类模型,其中,所述深度学习分类模型将域名的字符转化为词向量,并输入BiRNN神经网络以提取域名的文本特征,利用全连接网络分类器对所述BiRNN神经网络提取的文本特征进行分类;根据正常域名数据和DGA域名数据对应的所述全连接网络分类器的分类结果训练所述深度学习分类模型;将现网捕获的新域名进行清洗和预处理后导入所述深度学习分类模型,判断所述新域名是正常域名或DGA域名。
在上述技术方案中,优选地,对域名进行清洗具体包括去除重复、错误的域名,以及删除域名的开头,保留有效域名部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉智美互联科技有限公司,未经武汉智美互联科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910904014.9/2.html,转载请声明来源钻瓜专利网。