[发明专利]一种钓鱼网页检测方法有效

申请号：	201410282730.5	申请日：	2014-06-23
公开（公告）号：	CN104092667B	公开（公告）日：	2017-09-05
发明（设计）人：	毛剑;李佩;李腾;陈岳;马寒军;刘建伟	申请（专利权）人：	北京航空航天大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06F21/56;G06F17/30
代理公司：	北京慧泉知识产权代理有限公司11232	代理人：	王顺荣,唐爱华
地址：	100191***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种钓鱼网页检测方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明提供一种钓鱼网页检测方法，它具体涉及一种基于网页样式相似度的钓鱼网页检测方法，属于计算机互联网(Web)安全领域。

背景技术

钓鱼网页通过仿冒真实网页的统一资源定位符(Uniform Resource Locator，URL)和页面特征，构造在视觉效果上与真实网页相似的页面，或者利用真实网页的服务器漏洞注入危险的超文本标记语言(Hyper Text Markup Language，即HTML)代码，以骗取用户个人信息(如信用卡账号、密码和身份证号码等)，达到获取经济利益的目的。近年来，钓鱼网页数量持续高速增长，每年给用户造成巨大的经济损失，已成为互联网的主要安全威胁之一。钓鱼网页的检测与识别是Web安全领域的重要研究内容。

主流的钓鱼网页检测技术可分为基于URL和基于页面相似度的两类方法。URL是互联网上可以访问的资源的唯一标识。传统的钓鱼网页检测方法主要基于URL建立钓鱼网页黑名单或者从统计学的角度对URL的语义和结构进行分析。但是很多钓鱼网页将URL隐藏在多层iframe下，检测引擎需要对其进行连续追踪下载才能获取钓鱼网页的真实URL，增加了检测难度。判断一个网页是否是钓鱼网页，最准确的方法就是判断这个网页在视觉效果或网页内容上与真实的合法网页是否具有相似性。一些方案采用检测页面内容关键字和网页徽标的方法，根据页面内容关键字词频和网页徽标的匹配识别钓鱼网页。这种方法准确度难以保证，攻击者可以通过替代关键字和对网页徽标做出微小修改的方式躲避检测。一些方案使用页面内容布局作为相似度检测的依据，将页面中的元素按内容划分为小方块，通过检测小方块的面积和位置的相似度识别钓鱼网页。攻击者可以通过改变网页样式影响小方块的划分，或者通过改变网页布局、不改变网页内容的方法躲避检测。还有一些机制使用图像分析的方法，比较可疑网页的页面截图与目标网页截图的相似度。这种方案的缺点是计算复杂、效率不高、难以应用。因此，如何实现快速、便捷、准确地检测钓鱼网页称为Web安全领域研究的热点和难点。

标记语言(Markup Language，如HTML、XHTML和XML等)是一种将文本和与文本相关的信息展现出文档结构的计算机文字编码，被广泛应用与网页的制作。层叠样式表(即Cascading Style Sheet，缩写为CSS)，是一种用于为由标记语言编写的结构化文档添加样式(字体、间距和颜色等)的语言，在很大程度上决定了网页的视觉效果。如今，几乎所有的网页都使用CSS来修改网页的样式。每条CSS语句就是一条规定网页样式的CSS规则，由选择器和声明两部分组成。选择器是该CSS规则所作用网页元素的索引。声明包含该CSS规则所修改或定义的属性名称和相应的值。

发明内容

(1)发明目的

针对上述问题，本发明的目的在于提供一种钓鱼网页检测方法，涉及一种基于网页样式相似度的钓鱼网页检测方法。本发明通过比对可疑网页与目标网页的层叠样式表等网页样式特征，计算网页外观、样式的相似度，作为判断可疑网页是否在视觉效果上相似于目标网页的依据，支持在客户端实现快速、精准的钓鱼网页检测。

(2)技术方案

本发明的步骤涉及以下三个核心操作：1)网页样式特征提取；2)网页样式特征筛选；3)网页样式相似度计算。下面对这三个核心操作做出说明。

1)网页样式特征提取

网页样式特征包括两部分，网页可视部分的文档树结构和网页的CSS文本。

a)文档树提取

网页可视部分是指网页的HTML文档中能在浏览器主窗体内显示的元素，均位于HTML文档的<body></body>标签内。提取HTML文档树中以<body></body>元素为根节点的部分。

b)CSS文本提取

CSS文本在网页中一般以四种形式存在：内联样式表、内嵌样式表、外部样式表和输入样式表。分别从网页中的上述四种样式表中提取所有的CSS文本，并将其合并到一个文件中。

2)网页样式特征筛选