[发明专利]基于可信度的互联网恶意域名检测方法有效
申请号: | 202010368890.7 | 申请日: | 2020-05-03 |
公开(公告)号: | CN111581352B | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 王志;李涵;林宇量;詹婧;于涛 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/951;H04L9/40;H04L61/4511;G06N20/00 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 可信度 互联网 恶意 域名 检测 方法 | ||
1.基于可信度的互联网恶意域名检测方法,其特征在于,包括:
第1、利用多个模型独立的对域名恶意情况进行预测,模型对于测试数据的预测结果和实际恶意情况作为第2步的输入,包括如下步骤:
第1.1步、通过网络爬虫以及用户网络行为收集作为训练集和校准集的域名,并且对训练集和校准集同时进行特征提取,获取域名的特征值,其中包括:域名长度、元音占比、有意义单词占比统计域、数字占比、字母占比、不同数字占比、字母与数字变换次数和k-grams;
第1.2步、多个机器学习模型算法各自独立的对训练集的域名的特征值进行拟合,得到基于域名特征值的机器学习数据模型,并对校准集数据的恶意情况进行预测;
第2、运用IVAPD统计学习算法,对先前生成的机器学习数据模型的预测结果计算模型的可信度;
第2.1、每一个机器学习算法,对域名特征值集合X,能根据模型t,利用IVAPD算法,计算出结果P0(U)和P1(U);通过P0(U)和P1(U),利用公式计算得到IVAPD得分P(U),即为可信度;根据可信度P(U),来直接对比模型预测结果的质量选取可信度较高的m个模型;
第2.2、IVAPD得分的输入:拟合后的m个机器学习模型Ttest、校准域名集合Ycal,IVAPD算法g:
①拟合后的机器学习模型Ttest:包含m个机器学习模型ti,i∈{1,2,...,m},Ttest={t1,...,tm};
②校准域名集合Ycal:包含c个用于校准的域名yj,j∈{1,2,...,c},Ycal={y1,...,yc};
③IVAPD算法g;返回值为一个IVAPD得分,该函数的输入为一个校准域名集Ycal和机器学习模型ti,返回值为一个实数,该实数表明待测该机器学习模型在校准集上的统计学习得分;
第2.3、IVAPD算法的输出:机器学习算法在统计上的可信度;
第2.4、可信度算法流程:
输入:训练集TP={(x-1,y-1),......,(x-r,y-r)}
输入:校准集TC={(x1,y1),......,(xh,yh)}
输入:测试样例xh+1
输入:基本预测函数P:(x,T)→s
for i:=1,...,r do
s-i:=P(x-i,T\{(x-i,y-i)})
end for
找到(g-1,......,g-r)能使得最小其中
for i:=1,...,h+1 do
si:=P(xi,TP)
找到最接近si的s-j(可能不唯一)
gi:=g-j(取平均值并不是唯一的)
end for
令A:={i=1,...,h:gi=gh+1}
令
输出:
计算可信度:
第3、多个模型进行协同防御,即对第2步得到的模型可信度利用简单投票的方法对每个待测域名的恶意情况进行投票,来确定待测域名是否恶意;
第3.1、每一个已经训练好的机器学习模型,按照IVAPD可信度进行排序,取可信度最高的key个模型,根据待测域名特征值,对域名是否是恶意域名进行预测;
第3.2、多模型算法的输入:可信度较高的机器学习模型集合Tuesd、待测域名集合Ydetected,简单投票算法Vote:
①可信度较高的机器学习模型集合Tuesd:包含key个机器学习模型ti,i∈{1,2,...,key},Tused={t1,...,tkey};
②待测域名集合Ydetected:包含q个待测域名yj,j∈{1,2,...,q},Ydetected={y1,...,yq};
③简单投票算法Vote;返回值为一个多模型融合后的预测结果,该函数的输入为一个待测域名、机器学习模型集合Tuesd以及通过率rate,返回值为该域名是否为恶意域名的bool值;
第3.3、简单投票算法流程:
令yj∈Ydetected;Tused={t1,…,tkey},ti∈Tused;ti的预测算法为hi;算法集合的投票通过率为rate;
则投票的算法流程如下:
for i←1to key do
aij←hi(ti,yj)
end for
bi=1
else
bi=0
end if
end for;
第3.4、简单投票算法的输出:对于待测域名的预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010368890.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能封口贴标设备及方法
- 下一篇:一种横排水马桶结构