[发明专利]一种基于请求成功率的自适应休眠时间调节方法有效

专利信息
申请号: 201910475839.3 申请日: 2019-06-03
公开(公告)号: CN110209911B 公开(公告)日: 2023-03-28
发明(设计)人: 覃琴;王鑫;江旭华;石宁波 申请(专利权)人: 桂林电子科技大学
主分类号: G06F16/951 分类号: G06F16/951
代理公司: 桂林市华杰专利商标事务所有限责任公司 45112 代理人: 刘梅芳
地址: 541004 广西*** 国省代码: 广西;45
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 请求 成功率 自适应 休眠 时间 调节 方法
【说明书】:

发明公开了一种基于请求成功率的自适应休眠时间调节方法,包括如下步骤:1)检查1个周期内success和fail的和是否为10;2)计算请求周期成功率;3)计算该周期花费的时间;4)计算该周期的每个成功请求所花费的时间;5)将lastKey和lastVal记录为第一个请求周期的休眠时间值以及平均时间,然后将下一个请求周期的休眠时间设置为第一个请求周期休眠时间减gap毫秒,第一个请求周期结束,返回到步骤1);6)与第N‑1个周期比较;7)更新lastKey和lastVal,同时更新lastKey和lastVal,返回到步骤1);8)将下一个N+1周期的休眠时间设置为N‑1的休眠时间加gap毫秒,将lastVal记录为第N‑1个周期的休眠时间,本周期结束,返回到步骤1);9)继续运行。这种方法能提高爬虫运行的效率。

技术领域

本发明涉及网络搜索爬虫技术,具体是一种基于请求成功率的自适应休眠时间调节方法。

背景技术

随着网络的迅速发展,网络成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战,爬虫在爬取目标网站时,目标网站有时会返回非期待的HTML文档,这就是目标网站的反爬措施。目标网站根据IP地址的访问频率做出判断,如果某一IP地址在一段时间内访问目标网站的频率过高,目标网站则会在一段时间对该IP地址进行限制,那么该IP地址下的所有用户都会被限制访问,所以要模拟用户在浏览器的操作,例如用户浏览一个页面需要停留5-7秒,那么爬虫程序也要模拟这个间隔时间来进行爬取,这样才不会过多的被目标网站反爬。

如何选取一个合理的间隔时间对爬虫运行的效率极其重要。假设目标网站当前的最佳文档返回的未知间隔时间为X,那么常见的间隔时间选择方法通常有两种:

(1)设置固定时间:通常为了爬虫的稳定,固定的时间会定为比较长,如定为4、5、6秒,也就是模拟用户在浏览器页面停留相应的间隔时间,再继续访问下一个链接。这种方式的优点是目标服务器返回错误页面的概率较小,基本可以获得一个较好的抓取效果,对应的缺点是设置固定的时间间隔,因为程序运行之中,间隔时间不可改变,当目标服务器有较大的负载能力时,如果固定时间大于X,那么爬虫程序没有获得一个最佳的间隔时间,会增加整个爬虫工作的运行时间,非常耗时;

(2)设置随机的动态间隔时间:在每次发起HTTP请求时,使用随机函数Ramdom生成一个间隔时间,这种方法的优点是可以根据随机函数的便利减少爬虫工作的时间,将随机函数生成的间隔时间分为三个区间,分别是高、中、低;当生成一个高间隔时间,那么可以缩短一定的时间,但不是最优间隔时间;当生成一个中间隔时间时,那么可以接近间隔时间X,获得一个较佳的间隔时间,这是随机生成动态时间的最佳状态;当生成一个低间隔时间,那么这已经小于目标网站的最佳间隔时间X,服务器可能会返回错误的文档,并记录该IP地址进一步做限制,这种方法的综合优点是可以缩短整个爬虫工作运行的一定时间,缺点是当随机时间较小时,可能会导致目标网站返回过多的错误页面,影响爬虫工作效率。

发明内容

本发明的目的是针对现有技术的不足,而提供一种基于请求成功率的自适应休眠时间调节方法。这种方法能提高爬虫运行的效率。

实现本发明目的的技术方案是:

一种基于请求成功率的自适应休眠时间调节方法,包括如下步骤:

1)在爬虫每完成一次请求时,检查success和fail的和是否为10,如果是,继续到步骤2),如果不是,转到步骤9),其中,success为爬虫某个请求周期请求成功的次数,fail为爬虫某个请求周期请求被反爬的次数,所述的请求周期定义为:每发起10个HTTP请求为1个周期;

2)计算请求周期成功率:所述请求周期的成功率定义为:用户发起HTTP请求时,目标服务器返回期待的HTML文档的个数为X,那么本周期的请求成功率则为x÷周期发起的HTTP请求数,也就是计算success除以10的结果,结果记为p,继续到步骤3);

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910475839.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top