[发明专利]基于内容分发网络的网站内容智能防抓取方法和系统有效

专利信息
申请号: 201210480461.4 申请日: 2012-11-22
公开(公告)号: CN102970296A 公开(公告)日: 2013-03-13
发明(设计)人: 洪珂;郭文强;张颖 申请(专利权)人: 网宿科技股份有限公司
主分类号: H04L29/06 分类号: H04L29/06;G06F17/30
代理公司: 上海专利商标事务所有限公司 31100 代理人: 施浩
地址: 200030 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 内容 分发 网络 网站 智能 抓取 方法 系统
【说明书】:

技术领域

发明涉及互联网数据安全技术,尤其涉及基于内容分发网络(CDN网络)的网站安全技术,即网站内容智能防抓取的方法和系统。

背景技术

网站内容智能防抓取技术的基本思想是,当客户端对网站发起内容请求时,CDN系统的智能内容防抓取模块开始监控客户端的访问行为特征,当客户端访问行为异常时,CDN系统将根据智能防抓取模块给出的判定结果来判断客户端属于正常网友还是抓取机器,并响应相应的内容。

目前的网站内容防抓取的实现方案如图1所示。源站接收客户端请求(步骤S10)后,源站的防抓取模块监测客户端访问行为(步骤S11),会根据所配置的客户端访问频率来判断客户端为正常的网友还是恶意抓取机器(步骤S12)。当客户端访问频率超过阈值时,源站认为客户端是恶意抓取机器,拒绝其请求,返回403响应(步骤S13)。否则,源站认为客户端是正常的网友,返回其请求的内容(步骤S14)。

现有的网站内容防抓取实现方案存在三个弊端:

1.根据客户端的IP进行判断,粒度太粗,目前很多企业对外都只是一个IP或少数几个IP出口,容易产生误判,导致其他的客户端一直不能访问网站;

2.判断依据不够灵活,只能根据其访问频率来判断;

3.处理方式不够智能,在判断为机器后,不能自动解除禁问状态。

发明内容

本发明的目的在于解决上述问题,提供了一种基于内容分发网络的网站内容智能防抓取方法和系统,能够减少由于误判导致的正常客户端无法访问网站,且能自动解除禁问状态。

本发明的技术方案为:本发明揭示了一种基于内容分发网络的网站内容智能防抓取方法,包括:

内容分发网络系统接收客户端请求,监测客户端访问行为;

判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,流程结束;

若客户端访问频率超过预设阈值则继续判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长;

若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端不在防抓取状态内,返回客户端所请求的内容,流程结束;

若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则认为客户端仍在防抓取状态内,返回客户端验证码页面;

判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,流程结束;

若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。

本发明另外揭示了一种基于内容分发网络的网站内容智能防抓取系统,包括:

客户端访问行为监测模块,内容分发网络系统接收客户端请求,监测客户端访问行为;

客户端访问频率判断模块,判断客户端访问频率是否超过预设阈值,若客户端访问频率未超过预设阈值则认为客户端是正常网站用户,直接返回客户端所请求的内容,若客户端访问频率超过预设阈值则继续启动后一模块;

客户端请求时间判断模块,判断客户端本次请求时间是否大于上次超过访问频率的时间加上预设的防抓取状态时长,若客户端本次请求时间大于上次超过访问频率的时间加上预设的防抓取状态时长则返回客户端所请求的内容,若客户端本次请求时间小于上次超过访问频率的时间加上预设的防抓取状态时长则启动后一模块;

客户端验证模块,提供一客户端验证码页面,判断客户端是否提交了正确的验证码,若提交了正确的验证码则返回客户端所请求的内容,若未提交正确的验证码则判断客户提交的非法验证码的次数是否超过设定值,若未超过则返回客户端验证码页面以供客户端再次输入验证码,若超过则认为客户端是抓取机器,对其禁止访问,返回表示服务器拒绝请求的403响应。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于网宿科技股份有限公司,未经网宿科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210480461.4/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top