[发明专利]一种网站内容防抓取的方法在审

专利信息
申请号: 201110222891.1 申请日: 2011-08-04
公开(公告)号: CN102916935A 公开(公告)日: 2013-02-06
发明(设计)人: 刘翔;黄有富;彭平源;管燕卿 申请(专利权)人: 深圳华强电子交易网络有限公司
主分类号: H04L29/06 分类号: H04L29/06;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 518000 广东省深圳市福田*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网站 内容 抓取 方法
【说明书】:

技术领域

发明涉及一种网站内容防抓取方法。

背景技术

本文所述“抓取”,是指程序按照指定的规则定向获取其他网站数据的一种方式。

早些年,互联网出现了一种搜索引擎的系统,以靠抓取网站内容达到海量数据形成的平台,该技术是通过各种途径得到网站地址,根据网址对网页的内容进行抓取,抓取到得内容进行分析最终取到相应的数据信息;同时,也有其他非搜索引擎平台的数据抓取,竞争对手或者其他相关的企业通过抓取特定的信息内容给他们带来业务价值。

另一种抓取是属于恶意的,无论企业网站或者个人网站,都存在竞争对手,为了将竞争对手的网站处于瘫痪,会采用各种技术方法进行攻击,其中采用大量抓取数据的方式使竞争对手的网站服务器出现超负荷导致瘫痪更是常见的攻击方法。

根据以上所述搜索引擎抓取、业务价值抓取还是恶意攻击抓取,主要存在以下两个问题:一是数据大规模被盗,会给网站运营带来一定的业务影响,同时可能会存在一些隐私数据被曝光,给个人或企业带来负面的影响;二是无论是正常抓取还是恶意攻击抓取,都是会间接或者直接影响网站服务器的性能,从而降低网站的稳定性,特别是恶意的攻击抓取更是直接损害了网站与企业的利益。这几种操作对于被抓取的网站尤其是以原创内容为主的网站来说,一方面占用了被抓取网站大量的网络资源,降低了网络的运行速度和运行效率;另一方面也侵犯了被抓取网站的知识产权,因而损害被抓取网站的利益。

发明内容

本发明的目的是提供一种网站内容防抓取的处理方法,该方法能快速、稳定、有效防止网站大规模数据被抓取。

本发明解决其技术问题所采用的技术方案如下:

一种网站内容防抓取的方法,包括以下步骤:

1.首先建立判断抓取行为的规则;

2.WEB服务器端获取客户端信息,获取后传递给防抓系统服务器;

3.防抓系统服务器根据WEB服务器端传递的信息进行验证,将验证标识结果返回给WEB服务器端,而WEB服务器端根据验证结果决定是否执行请求页面的数据查询或者输出拒绝访问的提示。

具体地,所述步骤(1)中的规则由客户端IP单位时间内请求服务器端的次数、请求访问的路径组成。

优选地,所述步骤(2)中的客户端信息包括IP地址、请求URL地址以及当前请求的时间。

具体地,所述步骤(3)中防抓系统服务器设定单位时间和请求上限数,超出该时间及次数则判为属于抓取行为。

优选地,所述步骤(3)中设定列入黑名单的限制时长,在该时间内,该客户端都属被拒绝。

优选地,所述步骤(3)进一步包括黑名单表和客户状态表,存储于服务器内存中。

黑名单表存储客户端IP地址、被列入黑名单时的时间以及限制时长。

客户状态表存储单位时间所有请求的客户端信息,包括客户端IP地址、首次请求的时间及请求的总次数。

进一步地,所述步骤(3)中,还设有定时自动更新机制,在预定时间内对黑名单表及客户状态表的数据进行更新。

具体地,所述定时更新的过程中,首先取出黑名单表所有客户端的记录进行循环,根据每笔记录的限制时长进行判断,判断当时被列入黑名单时的时间与当前时间间隔是否大于等于限制时长,如果是,则将该笔客户端记录从黑名单表中移除;如果否,则不作处理。

具体地,所述定时更新的过程中,首先取出客户状态表数据进行循环,判断首次请求时间与当前时间间隔是否大于等于单位时间,如果是,则将该客户端从客户状态表移除;如果否,则不作处理。

优选地,所述黑名单表中所有客户端的限制时长值都是默认全局设定的限制时长值,通过修改黑名单表的限制时长值即可修改客户端的限制时长。

本发明的有益效果:本发明提出的网站内容防抓取的方法,通过验证流程的严格制定,从验证客户端的请求着手防范,有效地防止了网站数据被抓取,同时,除验证流程外另设有定时自动更新机制,确保了黑名单表及客户状态表数据的即时更新,更有效、稳定的维持整个流程的运行。。

附图说明

图1为本发明的网络结构示意图。

图2为本发明的验证请求流程图。

图3为本发明的定时自动更新机制流程图。

具体实施方式

以下将结合附图和实施例,对本发明进行较为详细的说明。

如图1所示,描述了本发明的网络结构示意图,即包括WEB服务器端、防抓系统服务器及客户端,一种网站内容防抓取的方法,包括以下步骤:

1.首先建立判断抓取行为的规则;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳华强电子交易网络有限公司,未经深圳华强电子交易网络有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201110222891.1/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top