[发明专利]一种网站内容防抓取的方法在审
申请号: | 201110222891.1 | 申请日: | 2011-08-04 |
公开(公告)号: | CN102916935A | 公开(公告)日: | 2013-02-06 |
发明(设计)人: | 刘翔;黄有富;彭平源;管燕卿 | 申请(专利权)人: | 深圳华强电子交易网络有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网站 内容 抓取 方法 | ||
1.一种网站内容防抓取的方法,包括以下步骤:
(1)首先建立判断抓取行为的规则;
(2)WEB服务器端获取客户端信息,获取后传递给防抓系统服务器;
(3)防抓系统服务器根据WEB服务器端传递的信息进行验证,将验证标识结果返回给WEB服务器端,而WEB服务器端根据验证结果决定是否执行请求页面的数据查询或者输出拒绝访问的提示。
2.如权利要求1所述的网站内容防抓取的方法,其特征在于:所述步骤(1)中的规则由客户端IP单位时间内请求服务器端的次数、请求访问的路径组成。
3.如权利要求1所述的网站内容防抓取的方法,其特征在于:所述步骤(2)中的客户端信息包括IP地址、请求URL地址以及当前请求的时间。
4.如权利要求1所述的网站内容防抓取的方法,其特征在于:所述步骤(3)中防抓系统服务器设定单位时间和请求上限数,超出该时间及次数则判为属于抓取行为。
5.如权利要求1所述的网站内容防抓取的方法,其特征在于:所述步骤(3)中设定列入黑名单的限制时长,在该时间内,该客户端都属被拒绝。
6.如权利要求1所述的网站内容防抓取的方法,其特征在于:所述步骤(3)进一步包括黑名单表和客户状态表,存储于服务器内存中;
黑名单表存储客户端IP地址、被列入黑名单时的时间以及限制时长;
客户状态表存储单位时间所有请求的客户端信息,包括客户端IP地址、首次请求的时间及请求的总次数。
7.如权利要求1或6所述的网站内容防抓取的方法,其特征在于:所述步骤(3)中,还设有定时自动更新机制,在预定时间内对黑名单表及客户状态表的数据进行更新。
8.如权利要求1或7所述的网站内容防抓取的方法,其特征在于:所述定时更新的过程中,首先取出黑名单表所有客户端的记录进行循环,根据每笔记录的限制时长进行判断,判断当时被列入黑名单时的时间与当前时间间隔是否大于等于限制时长,如果是,则将该笔客户端记录从黑名单表中移除;如果否,则不作处理。
9.如权利要求1或7所述的网站内容防抓取的方法,其特征在于:所述定时更新的过程中,首先取出客户状态表数据进行循环,判断首次请求时间与当前时间间隔是否大于等于单位时间,如果是,则将该客户端从客户状态表移除;如果否,则不作处理。
10.如权利要求1或6所述的网站内容防抓取的方法,其特征在于:所述黑名单表中所有客户端的限制时长值都是默认全局设定的限制时长值,通过修改黑名单表的限制时长值即可修改客户端的限制时长。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华强电子交易网络有限公司,未经深圳华强电子交易网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110222891.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种猪嵴病毒RT-PCR检测试剂盒
- 下一篇:圆柱体包装机
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法