[发明专利]一种钓鱼网页检测方法有效

专利信息
申请号: 201410282730.5 申请日: 2014-06-23
公开(公告)号: CN104092667B 公开(公告)日: 2017-09-05
发明(设计)人: 毛剑;李佩;李腾;陈岳;马寒军;刘建伟 申请(专利权)人: 北京航空航天大学
主分类号: H04L29/06 分类号: H04L29/06;G06F21/56;G06F17/30
代理公司: 北京慧泉知识产权代理有限公司11232 代理人: 王顺荣,唐爱华
地址: 100191*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 一种钓鱼网页检测方法,它有四大步骤一网页样式特征提取;提取可疑网页Ps与目标网页Pi网页可视部分的文档树结构和CSS文本;二网页样式特征筛选;筛选Tree(Ps)与Tree(Pi)中的元素;解析可疑网页Ps与目标网页Pi的CSS文本,得到对应的规则对象集合,并对所有的规则对象进行筛选;三网页相似度计算;根据步骤二中得到的CSS规则对象集和网页元素树,分别计算可疑网页Ps与目标网页Pi的网页样式复杂度C(Ps)、C(Pi)和网页样式匹配度M(Ps,Pi),最后利用Jaccard系数计算Ps与Pi的网页样式匹配度S(Ps,Pi);四结果判决;根据步骤三中得到的计算结果和可疑网页Ps与目标网页Pi的域名,判断Ps是否为钓鱼网页。
搜索关键词: 一种 钓鱼 网页 检测 方法
【主权项】:
一种钓鱼网页检测方法,其特征在于:该方法具体步骤如下:步骤一:网页样式特征提取;提取可疑网页Ps与目标网页Pi网页可视部分的文档树结构和CSS文本;步骤1.1:文档树提取;提取可疑网页Ps与目标网页Pi可视部分的文档树结构Tree(Ps)与Tree(Pi);步骤1.2:CSS文本提取;提取可疑网页Ps与目标网页Pi的CSS文本;步骤二:网页样式特征筛选;筛选Tree(Ps)与Tree(Pi)中的元素;解析可疑网页Ps与目标网页Pi的CSS文本,得到对应的规则对象集合,并对所有的规则对象进行筛选;步骤2.1:文档树元素筛选;以深度优先法遍历步骤1.1得到的文档树,遍历过程中,对文档树中的每一个元素进行筛选,筛除不参与网页样式相似度计算的元素,遍历结束后,得到筛选后的文档树结构Tree′(Ps)与Tree′(Pi);步骤2.2:CSS规则筛选;使用CSS解析器对步骤1.2中得到的CSS文本进行解析,得到可疑网页Ps的规则对象集合CSS(Ps)与目标网页Pi的规则对象集合CSS(Pi);利用步骤2.1得到的Tree′(Ps)与Tree′(Pi),筛选CSS(Ps)与CSS(Pi)中的规则对象,得到CSS规则对象集合的筛选结果CSS′(Ps)与CSS′(Pi);步骤三:网页相似度计算;根据步骤二中得到的CSS规则对象集和网页元素树,分别计算可疑网页Ps与目标网页Pi的网页样式复杂度C(Ps)、C(Pi)和网页样式匹配度M(Ps,Pi),最后利用Jaccard系数计算Ps与Pi的网页样式匹配度S(Ps,Pi);步骤3.1:网页样式复杂度计算;用公式和公式计算可疑网页Ps与目标网页Pi的网页样式复杂度C(Ps)和C(Pi);其中,式(1)中n为网页P中参与相似度计算的CSS规则对象的数量;Wp为第j条规则对象的CSS属性在相似度计算中的权重,是一个预定义的固定值,且0<Wp<1;为第j条规则对象中CSS属性在相似度计算中的影响因子,对每一种CSS属性,其影响因子是一个预定义的固定值,且Ws为第j条规则对象的选择器在相似度计算中的权重,是一个预定义的固定值,且Ws+Wp=1;为第j条规则对象中选择器所选中的元素在相似度计算中的影响因子,用公式(2)计算其中,式(2)中是由元素的类型所决定的影响因子,对于每一种类型的元素,是一个预定义的固定值,且是由元素的面积决定的影响因子,其值为该元素面积占网页总面积的比例;是由作用于该元素的CSS规则数量决定的影响因子,其值为作用于该元素的CSS规则数量占网页CSS规则总数量的比例;Wtype、Warea和Wrule分别为和的权重,是预定义的固定值,且0<Wtype<1,0<Warea<1,0<Wrule<1;步骤3.2:网页样式匹配度计算;用公式M(X,Y)=Σk=1m[D(DkX,RkY)·(Wp·Ikp+Ws·Iks)]---(3)]]>计算可疑网页Ps与目标网页Pi的网页样式匹配度M(Ps,Pi);其中,m为网页X与网页Y匹配的CSS规则对象的数量;和分别为网页X与网页Y中第k条匹配的规则对象;为为和的匹配程度,该匹配的规则对象在网页X与网页Y中对应的影响因子的较小者,即步骤3.3:网页样式相似度计算;根据网页X与网页Y的网页样式复杂度C(X)、C(Y)和网页样式匹配度M(X,Y),利用公式S(X,Y)=M(X,Y)C(X)+C(Y)-M(X,Y)---(4)]]>计算可疑网页Ps与目标网页Pi的网页样式相似度S(Ps,Pi);步骤四:结果判决;根据步骤三中得到的计算结果和可疑网页Ps与目标网页Pi的域名,判断Ps是否为钓鱼网页;步骤4.1:网页样式复杂度判决;若C(Ps)小于预设阈值,则认为可疑网页的网页样式复杂度过低,该页面可能采用图片或表单形式来模仿某个网页样式复杂度较高的页面,此时需提醒用户:Ps存在钓鱼的风险;若C(Ps)大于预设阈值,说明Ps的网页结构正常,使用网页样式相似度S(Ps,Pi)来判断Ps的安全性;步骤4.2:网页样式相似度判决;当S(Ps,Pi)大于预设阈值且Ps与Pi的域名相同时,Ps为非法钓鱼网页,其它情况下,Ps为合法的真实网页。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201410282730.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top