[发明专利]一种基于机器学习实现恶意域名识别的方法在审
申请号: | 201811365404.5 | 申请日: | 2018-11-16 |
公开(公告)号: | CN111200576A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | 贾盛;王晓波 | 申请(专利权)人: | 慧盾信息安全科技(苏州)股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 215000 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 实现 恶意 域名 识别 方法 | ||
本发明提供一种基于机器学习实现恶意域名识别的方法,其特征在于,采用机器学习技术,训练出识别恶意域名的机器学习模型组,该模型组可以准确的对恶意域名进行识别;包括机器学习模型训练单元和恶意域名识别单元。
技术领域
本发明属于互联网信息安全领域,涉及域名管理、病毒和木马技术、机器学习、以及NB、MLP和XGBoost等算法。本发明所涉及的一种机器学习识别恶意域名的方法,采用上述技术和算法,能够实现对机器自动生成的恶意域名的准确、快速的识别。
缩略语及名词解释
DGA:域名生成算法是一种利用随机字符来生成CC域名,从而逃避域名黑名单识别的技术手段。
CC服务器:远程命令和控制服务器,目标机器可以接收来自服务器的命令,从而达到服务器控制目标机器的目的,该方法常用于病毒木马控制被感染的机器。
DNS:Domain Name System,域名系统。
Jaccard系数:Jaccard相似系数(Jaccard similarity coefficient)用于比较有限数据集之间的相似性与差异性,Jaccard系数值越大,样本相似度越高。
XGBoost:eXtreme Gradient Boosting。
MLP:多层感知器。
NB:朴素贝叶斯法。
背景技术
随着网络时代的到来,互联网让人民的生活更加便捷,一方面,互联网的进步带给了人们生活的便捷,另一方面黑客攻击者也会窃取互联网用户的重要信息,威胁着网民的网络安全,黑客攻击者利用僵尸网络对感染病毒的主机进行了大量的恶意活动,并且僵尸网络大多数使用了Domain Flux技术(如图1),即根据DGA(Domain GenerationAlgorithms,域名产生算法)在一段时间内涌现很多新域名并且只有其中一两个域名被注册为真实的活跃域名,以逃避安全检测员检测域名。
通过事先注册一个或多个域名,控制者便可实现对整个网络的控制,对于僵尸程序,为实现与CC服务器建立连接,必须对生成域名进行解析,直至获取CC 服务器的IP地址,由于注册的域名数量有限,导致感染主机会请求大量新域名,并存在一定数量解析失败的域名请求行为。
当前杀毒软件以及安全防护设备无法检测恶意域名,时刻威胁着用户终端的系统安全。主要包括以下两个原因:
1:恶意软件定期使用DGA算法生成为随机域名,有效绕过黑名单检测,尝试连接,寻找CC中控。
2:如果一个生成的域名无法连接,便生成下一个DGA为随机域名进行连接尝试,这样即使中控机的IP地址发生变化,或一个中控域名被干掉,一定时间后肉鸡仍能寻找到CC中控继续工作。
发明内容
本发明涉及一种机器学习识别恶意域名的方法,通过机器学习模型训练和恶意域名识别,可实现简单而有效的恶意域名识别,能够区分恶意域名和正常域名,解决现有技术中恶意域名识别滞后的问题。
一种机器学习识别恶意域名识别的方法包括:
1.机器学习模型训练单元:通过构建数据集、特征提取、模型训练,训练出可识别恶意域名的机器学习模型组。如图3
2.恶意域名识别单元:通过待识别的域名获取、静态过滤、待识别域名特征提取、模型组预测、选举投票,可实现恶意域名识别。如图4
构建正负样本数据集,所述正样本数据集使用Alexa全球排名前100万的网站域名数据,负样本数据集使用360netlab开放DGA家族数据,并对DGA家族数据进行分类。
所述DGA家族类型包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于慧盾信息安全科技(苏州)股份有限公司,未经慧盾信息安全科技(苏州)股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811365404.5/2.html,转载请声明来源钻瓜专利网。