[发明专利]基于混合方法的三层钓鱼网站检测系统有效
申请号: | 201911013051.7 | 申请日: | 2019-10-23 |
公开(公告)号: | CN110784462B | 公开(公告)日: | 2020-11-03 |
发明(设计)人: | 谷勇浩;高翊睿;李良训;黄泽祺;王翼翡;郭振洋 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F16/953;G06F16/955;G06K9/62;G06N3/04 |
代理公司: | 北京佐行专利代理事务所(特殊普通合伙) 11683 | 代理人: | 刘鹏;王占愈 |
地址: | 100876 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 混合 方法 三层 钓鱼 网站 检测 系统 | ||
1.基于混合方法的三层钓鱼网站检测系统,其特征在于:此检测系统由三层组成:第一层黑白名单、表单过滤层、第二层favicon检测层和第三层机器学习检测层;
(1)、第一层黑白名单过滤层:直接通过现有的Google API钓鱼网站黑名单和Alexa网站TOP250构建黑白名单;
登录表单过滤器,它将没有提交表单登录的网站分类为普通网站,因为目的是检测钓鱼网站,所以没有表单提交的页面显然不具有钓鱼属性;
经过两个过滤器,如果未被过滤的网站,则会进入下面的流程,被过滤的网站会直接返回结果,这样能提升大部分常见网站的响应;
当待测网站在黑名单或白名单中被匹配到,则返回检测结果,当待检测网站未在黑白名单匹配到时,若被表单过滤器过滤则输出为合法网站,否则进入下一层检测;
(2)、第二层favicon检测层,第二层使用favicon来获取网页的身份,相比于网页的其他视觉特征,favicon更能标识一个网页的身份;并且采用Google Search搜索favicon,避免了自己维护数据库而消耗大量的计算与存储资源,其流程如下:
(2-1)、favicon提取过程:通过对应网址,即可取得网页对应的favicon;
(2-2)、身份验证过程:此过程利用Google图像搜索和Google图片库完成,将过滤出的favicon进行Google搜索,然后在返回的匹配内容中解析出涉及的URL,这部分会返回两个网页匹配结果和一个图片匹配结果,这里只需要检索网页匹配结果即可;
然后是检测阶段,在返回结果中,提取四个特征的数据,统计被检测网站二级域名在上述四个特征中出现的次数,使用训练好的GMM(高斯混合模型)对其进行线性加权归一化,得到归一化匹配得分S,根据双阈值策略将[0,S1)划定为钓鱼类别,将(S2,1]划定为合法网页类别,同时,对于[S1,S2]区间内的网页将判定为可疑类别;
第二层的返回结果,对于被判定为合法或钓鱼的网站直接返回检测结果,对于被划分为可疑类别的网站放入下一层进行检测;
(3)、第三层机器学习检测层,第三层将对在二层中还未得出结果的网站使用机器学习方法进行分类,首先提取待检测网页的特征,然后放入已训练好的Self-Structuring NN中进行分类;
(3-1)、第三层的特征选取;
选择UCI数据集的特征,此特征具有很强的代表性,基本包含了现有研究中的大部分特征考虑维度;
第三层的返回结果,返回Self-Structuring NN的分类结果,即钓鱼或合法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911013051.7/1.html,转载请声明来源钻瓜专利网。