[发明专利]一种识别网页爬虫的方法和装置有效
申请号: | 201110130432.0 | 申请日: | 2011-05-19 |
公开(公告)号: | CN102790700A | 公开(公告)日: | 2012-11-21 |
发明(设计)人: | 叶润国;肖小剑 | 申请(专利权)人: | 北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;H04L29/06;G06F17/30 |
代理公司: | 北京安信方达知识产权代理有限公司 11262 | 代理人: | 栗若木;王漪 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 识别 网页 爬虫 方法 装置 | ||
技术领域
本发明涉及网络安全技术领域,尤其涉及一种识别网页爬虫的方法和装置。
背景技术
由于Web服务的方便性和易用性,目前越来越多的网络业务从传统采用专用客户端和专用服务器模式(C/S模式)转移到了采用标准Web浏览器作为客户端的浏览器和Web服务器模式(B/S模式)。这些采用了B/S模式的网络业务一般被称为Web应用系统。Web应用系统在给人们带来方便的同时,也带来了很多安全问题,比较常见的安全问题包括网页木马病毒、SQL注入攻击、XSS攻击等。Web应用系统的这些安全问题存在的根源大多是因为Web应用系统本身存在程序代码上的缺陷,引入了Web安全漏洞,从而使得黑客有机可乘。
网络攻击者攻击一个Web应用系统(有时候也成为一个Web网站)时,首先需要对整个Web应用系统进行漏洞扫描,找到可以攻击利用的Web安全漏洞,然后对这个漏洞进行攻击,从而达到其恶意目的。对于一个全新的Web应用系统,网络攻击者需要采取网页爬虫技术对该Web应用系统进行扫描,找到所有可能存在安全问题的网页,然后对该网页进行攻击尝试,从而确认该网页是否存在漏洞。
经过对各种常见Web攻击的研究发现,很多Web攻击发生时,它们所使用的Web攻击工具大都具有一种Web爬虫行为。包括:
CC攻击(DDoS):采用多个代理并行访问Web服务器上那些资源消耗较多的Web页面,导致Web服务DDoS;
僵尸DDoS:采用一组运行了Web爬虫的僵尸来不间断的爬Web服务器,使得Web服务器没有时间接待其它Web请求;
Web漏洞扫描(包括SQL注入工具):黑客采用常见的漏洞扫描工具对Web服务器进行漏洞扫描。
从Web服务器防御角度看,如果能够在早期识别出这些恶意的网页爬虫,并持续监控它们,则可能及早对它们进行流量控制,从而确保Web服务器的安全。
当前常见的网页爬虫识别方法通过监控某一Web客户端发出的一系列Web网页请求来判定其是否为网页爬虫,其检测基本思路是:如果该Web客户端为爬虫,则它发出的两个连续Web页面请求的时间间隔取较小值的概率较大;如果该Web客户端为正常用户,则它发出的两个连续Web页面请求的时间间隔取较大值的概率较大;通过连续监测该Web客户端发出的n个Web页面请求的时间间隔并采用假设检验法,就可以在一定的置信度判定其是否为网页爬虫还是人工浏览。
发明内容
本发明要解决的技术问题是提供一种识别网页爬虫的方法和装置,可以检测出那种隐蔽性较强的CC客户端,从而为后续的HTTP流量控制提供了宝贵的响应时间。
为了解决上述问题,本发明提供了一种识别网页爬虫的方法,包括:
统计Web服务器对所有Web页面请求的平均响应时间,获取一段时间内Web客户端到Web服务器的Web网页请求,测量出各相邻Web网页请求时间间隔以及各Web页面请求响应时间,根据Web页面请求响应时间修正相邻Web网页请求时间间隔,判定修正后的相邻Web页面请求时间间隔是否大于或等于一预定的相邻网页请求时间间隔阈值δ,根据各判断结果是否满足预设条件,来判断所述web客户端的操作是否为网络爬虫。
较佳地,上述方法具体包括以下步骤:
A0、统计Web服务器对所有Web页面请求的平均响应时间η;
A1、收集一段时间内Web客户端到Web服务器的网页请求序列W;
A2、计算所述网页请求序列W中各相邻网页请求之间的时间间隔Vti和各Web页面请求的响应时间μi;A3、基于各Web页面请求响应时间μi和Web页面请求平均响应时间η将相邻Web页面请求时间间隔Vti进行修正为Vt′i,其中,修正规则为:如果Web页面请求响应时间μi大于平均Web页面请求响应时间η,修正后的相邻Web页面请求时间间隔Vt′i为Vti与一个小于1的惩罚因子k的乘积;
A4、分别判断修正后的各时间间隔Vt′i是否大于或等于预先设定的相邻网页请求时间间隔阈值δ,如果是则将修正后的时间间隔对应的事件元素ei记为0,否则记为1;各时间间隔对应的事件元素ei组成一个基本事件序列E;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司,未经北京启明星辰信息技术股份有限公司;北京启明星辰信息安全技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110130432.0/2.html,转载请声明来源钻瓜专利网。