[发明专利]基于SVM机器学习的恶意域名检测方法在审
申请号: | 201910971102.0 | 申请日: | 2019-10-14 |
公开(公告)号: | CN110866611A | 公开(公告)日: | 2020-03-06 |
发明(设计)人: | 温延龙;范渊 | 申请(专利权)人: | 杭州安恒信息技术股份有限公司 |
主分类号: | G06N20/10 | 分类号: | G06N20/10;H04L29/06;H04L29/12 |
代理公司: | 杭州中成专利事务所有限公司 33212 | 代理人: | 金祺;周世骏 |
地址: | 310051 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 svm 机器 学习 恶意 域名 检测 方法 | ||
1.基于SVM机器学习的恶意域名检测方法,其特征在于:包括以下步骤:
1)、收集数据;
2)、确定需要的维度;
3)、获得收集数据的维度,作为训练集数据;
4)、利用SVM模型对训练集数据进行训练生成模型;
5)、测试训练结果调整准确率。
2.根据权利要求1所述的基于SVM机器学习的恶意域名检测方法,其特征在于:
在步骤1中:获取恶意域名作为收集数据的负样本;获取非恶意域名作为收集数据的正样本。
3.根据权利要求2所述的基于SVM机器学习的恶意域名检测方法,其特征在于:
确定维度包括域名的Alexa排名、搜狗RanK、搜狗的域名收入量、百度的收入量、必应的收入量、网站的首页完整度、是否是主流域名后缀、域名IP解析地理位置、A记录与CNAME、域名WHOIS数据。
4.根据权利要求3所述的基于SVM机器学习的恶意域名检测方法,其特征在于:
收集10种维度数据的方式:
Alexa排名:通过接口获取域名的排行,如果没有排行设置为较大值;
搜狗RanK:搜狗RanK值越大网站越大;没有搜狗RanK的设为0;
搜狗的域名收入量:通过搜狗搜索引擎获取域名收入量;没有收入量设为0;
百度的域名收入量:通过百度搜索引擎获取域名收入量;没有收入量设为0;
网站首页的完整度:判断网页首页是否包含<html><script><table><title><img><link><a><body><css>,越完整分数越高累加,首页为空则为0;
是否主流域名后缀:主流域名的主流后缀为.com、.net.、.cn;
域名解析IP地理位置:域名是否在国外;
A记录CNAME:有A记录CNAME的记1,没有的记为0;
域名WHOIS:有WHOIS并且是匿名注册的记0,有WHOIS并且不是匿名注册的记1;
必应的收入量:通过必应搜索引擎获取域名收入量,没有收入量设为0。
5.根据权利要求4所述的基于SVM机器学习的恶意域名检测方法,其特征在于:
步骤4包括:
4.1)、首先载入训练集数据;
4.2)、训练集数据数据归一化,得到归一化之后的数据;将数据缩小至方差为1均值0的数组;
4.3)、将归一化之后的数据划分为训练样本和测试样本,将训练样本放入SVM算法中进行训练,利用训练样本进行模型的验证,使用SVM算法进行模型的训练。
6.根据权利要求5所述的基于SVM机器学习的恶意域名检测方法,其特征在于:
步骤5)、测试训练结果调整准确率的方法包括:
1:利用模型对数据进行识别,将识别结果重新放入训练样本进行训练,加训练样本;
2:利用交叉验证的方法,设置模型的参数进行验证,计算模型的最优解参数,根据最优解对数据进行重新模型的训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州安恒信息技术股份有限公司,未经杭州安恒信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910971102.0/1.html,转载请声明来源钻瓜专利网。