[发明专利]一种识别网站页面的方法和装置有效
申请号: | 201210277999.5 | 申请日: | 2012-08-06 |
公开(公告)号: | CN102833233A | 公开(公告)日: | 2012-12-19 |
发明(设计)人: | 李晓波;刘起 | 申请(专利权)人: | 北京奇虎科技有限公司;奇智软件(北京)有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F21/00 |
代理公司: | 北京市中伦律师事务所 11410 | 代理人: | 程义贵;王桂玲 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网站 页面 方法 装置 | ||
技术领域
本发明涉及网络安全,具体涉及一种用于识别钓鱼网站页面的方法和装置。
背景技术
在网络安全领域,典型的反钓鱼系统包括钓鱼数据收集系统(即蜘蛛系统)、钓鱼识别系统、钓鱼数据查杀引擎及钓鱼防杀客户端四部分组成,其中钓鱼数据收集系统负责从海量的互联网数据中进行筛选并下载疑似钓鱼页面,是一个反钓鱼系统的起点,能否快速、全面的发现新的钓鱼数据决定着一个反钓鱼系统质量的优劣。
现有的钓鱼数据收集系统(蜘蛛系统)从一些种子页面开始进行抓取,通过对新发现的页面做链接分析,从中获取新的URL(Uniform Resource Locator,统一资源定位符),然后对URL进行下载,将下载后的内容提交给钓鱼识别系统,钓鱼识别系统对已下载的内容抽取链接,加入待抓取队列,并且如此循环进行。
现有的钓鱼数据收集系统在下载过程中主要下载静态页面内容,少数系统可以分析一些简单的动态页面内容。而钓鱼页面数据不同于普通的网页数据,钓鱼页面的作者通常会使用各种方法来防止被反钓鱼系统的爬虫抓取到,例如会使用iframe元素、设置cookie、设置页面定时刷新、和/或收集爬虫IP变换域名等静态或动态的客户端或服务端检测方法,来屏蔽或欺骗蜘蛛的抓取。而且,钓鱼页面通常变化时效性很强,有些在被反钓鱼系统查杀后的几个小时之内就会发生变种,速度非常之快。对于这些特点,传统意义上的蜘蛛系统已经显得力不从心。
另外,由于钓鱼数据的易变性,传统意义上的蜘蛛系统在发现和抓取这一整套环节中都严重滞后,因为钓鱼网站制作者通常掌握大量的网站域名,一个钓鱼网站在新生成后,可能只会欺骗一部分用户,然后就会隐匿起来,再换另一部分用户来欺骗。对于传统意义上的蜘蛛系统,要快速发现这些钓鱼网站,并且动态地将这些钓鱼网站的页面数据的抓取顺序提到抓取队列之前,是非常困难的。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的用于识别钓鱼网站页面的方法以及相应的装置。
依据本发明的一个方面,提供了一种用于识别钓鱼网站页面的方法,包括:
收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析;
根据分析结果和预先定义的反钓鱼数据库,调整所述潜在钓鱼网站页面在静态抓取队列中的排序;
按照排序对所述静态抓取队列中的所述潜在钓鱼网站页面进行静态抓取;
将静态抓取失败的潜在钓鱼网站页面提交至动态抓取队列并进行动态抓取;以及
基于所述预先定义的反钓鱼数据库,根据静态抓取和动态抓取获得的数据识别钓鱼网站页面。
可选地,所述预先定义的反钓鱼数据库包括钓鱼网站页面的特征信息以及用于确定是否动态抓取潜在钓鱼网站页面的分类信息,所述钓鱼网站页面的特征信息包括IP数据、域名、注册信息、内嵌链接、META标签信息、标题信息、关键词、文档对象模型DOM结构。
可选地,所述方法还包括:在所述收集潜在钓鱼网站页面的网址并且对于潜在钓鱼网站页面进行分析的步骤之后,在所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序的步骤之前,根据分析结果和预先定义的反钓鱼数据库,将符合所述预先定义的反钓鱼数据库中的所述分类信息的潜在钓鱼网站页面提交至动态抓取队列。
可选地,所述分析结果包括潜在钓鱼网站页面的页面浏览量PV数据、独立访客量UV数据、以及所述特征信息和所述分类信息。
可选地,所述方法还包括:
提取所识别出的钓鱼网站页面的特征信息以及分类信息;以及
将所述特征信息以及分类信息添加到所述预先定义的反钓鱼数据库。
可选地,所述根据分析结果和预先定义的反钓鱼数据库调整所述潜在钓鱼网站页面在静态抓取队列中的排序的步骤包括:将具有以下特征的潜在钓鱼网站页面在静态抓取队列中的排序提前:
(1)在预先定义的时间点后收集到其信息的潜在钓鱼网站页面;和/或
(2)页面浏览量PV数据和/或独立访客量UV数据大于预先定义的第一阈值的潜在钓鱼网站页面;和/或
(3)与所述预先定义的反钓鱼数据库中的钓鱼网站页面的特征信息匹配程度大于预先定义的第二阈值的潜在钓鱼网站页面。
可选地,所述基于所述预先定义的反钓鱼数据库、根据静态抓取和动态抓取获得的数据识别钓鱼网站页面的步骤包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司;奇智软件(北京)有限公司,未经北京奇虎科技有限公司;奇智软件(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210277999.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:图像形成装置
- 下一篇:火电厂联合热力系统及火电厂