[发明专利]一种海量网络恶意域名识别和分类方法及系统有效
申请号: | 201911363946.3 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111131260B | 公开(公告)日: | 2020-09-15 |
发明(设计)人: | 司俊俊;羊晋;刘智超;涂波 | 申请(专利权)人: | 邑客得(上海)信息技术有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L29/12;G06F16/35;G06K9/62 |
代理公司: | 北京万象新悦知识产权代理有限公司 11360 | 代理人: | 黄凤茹 |
地址: | 200082 上海市虹口*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 海量 网络 恶意 域名 识别 分类 方法 系统 | ||
1.一种基于海量域名访问日志的恶意域名识别和分类方法,通过从域名访问日志中的域名服务器应答数据包解析得到未注册域名来检测恶意域名,识别被感染的僵尸主机;再从僵尸主机访问的域名集合中检测出控制端通信所使用的通信控制恶意域名;包括以下步骤:
第一步,获取海量域名访问日志,并进行数据清洗和数据过滤处理;
第二步,将域名访问日志按照域名流量中域名服务器应答数据包解析结果进行分组,得到未注册域名类和注册域名类;
第三步,对未注册域名类中的每个域名提取特征向量,并进行域名聚类,得到未注册域名聚类结果A;
提取得到的域名特征向量内容包括但不限于:计算域名的二级域名信息熵、计算域名的三级域名信息熵、计算域名的全域名信息熵、计算域名的元音字符比例、计算域名的数字字符比例、计算域名的重复字符数目、计算域名的连续数字字符个数、计算域名的连续辅音字符个数、计算全域名长度、计算二级域名长度、计算子域名长度、计算总字符个数以及域名的顶级域名是否是普遍使用的顶级域名;
第四步,建立未注册域名和主机访问关系矩阵,基于关系矩阵的计算进行未注册域名聚类:
对未注册域名及访问这些域名的主机,建立域名和主机的访问关系矩阵,并对矩阵进行奇异值分解计算,得到域名特征向量;再对域名特征向量进行聚类,得到未注册域名聚类结果B;
第五步,对第三步和第四步得到的两个未注册域名聚类结果进行融合,即求交集运算,得到最终的未注册域名聚类结果C;
第六步,建立域名黑白名单知识库,作为训练集数据训练恶意域名分类器;黑白名单数据作为分类器训练数据集,训练数据集进一步分为训练数据和验证数据;
第七步,对恶意域名分类器进行训练,得到训练好的恶意域名分类器;
基于黑白名单训练数据和验证数据,按照第三步的方法提取黑白名单训练数据的域名特征向量,利用机器学习或深度学习算法,训练恶意域名分类器,得到训练好的恶意域名分类器;
第八步,利用第七步训练好的恶意域名分类器对第五步的未注册域名聚类结果C中的每一个域名集合进行恶意域名识别和分类,得到域名聚类结果C中的每一个域名集合中每个域名的分类结果;然后对分类结果进行统计,当且仅当出现次数最多的分类结果L占总数据量的比例大于设定值时,该域名集合的分类结果为L;
第九步,获取访问每一类已识别和分类的恶意域名的主机群,并获取这些主机群访问的注册域名集合;
第十步,利用第七步训练好的恶意域名分类器对第九步得到的注册域名集合中的域名,按照第三步的方法提取域名特征向量,利用第七步训练好的恶意域名分类器对每一个域名进行识别和分类,得到域名属于每个类别的概率,最大概率值是域名属于类别的可信度;每个类别可信度大于设定阈值的恶意域名即为通信控制恶意域名;
通过上述步骤,实现基于海量域名访问日志的恶意域名识别和分类。
2.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法,其特征是,第一步具体包括:
首先,获取海量域名访问流量数据包,对流量中域名服务器应答数据包进行解析,获取海量域名访问日志,并对海量域名访问日志进行数据清洗,利用Spark大数据分析引擎的map和filter算子,对日志中域名字符存在错误的记录进行过滤。
3.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法,其特征是,第二步中,根据域名流量中域名服务器应答数据包解析结果中字段名rcode的取值进行判断域名是否注册,rcode取值为3即该域名未被注册。
4.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法,其特征是,第三步和第四步具体采用K-Means聚类算法进行聚类。
5.如权利要求1所述基于海量域名访问日志的恶意域名识别和分类方法,其特征是,第四步中的关系矩阵的列表示域名,矩阵的行为主机IP;第i行第j列的数据表示第i个主机对第j个域名的访问次数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于邑客得(上海)信息技术有限公司,未经邑客得(上海)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911363946.3/1.html,转载请声明来源钻瓜专利网。