[发明专利]提升爬虫代理质量的方法、装置及计算机可读存储介质有效
申请号: | 201910403144.4 | 申请日: | 2019-05-15 |
公开(公告)号: | CN110147271B | 公开(公告)日: | 2020-04-28 |
发明(设计)人: | 刘希龙 | 申请(专利权)人: | 重庆八戒传媒有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;G06F16/951 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 王莹 |
地址: | 401121 重庆市渝北区北部新*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 提升 爬虫 代理 质量 方法 装置 计算机 可读 存储 介质 | ||
本发明公开了一种提升爬虫代理质量的方法、装置及计算机可读存储介质,所述提升爬虫代理质量的方法包括:为若干代理池设置不同优先级;基于代理池优先级及其使用率来进行代理池的调用。本发明通过对代理池合理分级,将代理按照优质程度分类放入代理池中,并根据代理池的代理使用率进行代理池切换,实现网络代理的有效管理,将优质代理的使用率提升到最大化,提高爬虫程序的网络资源获取效率;检测代理的可用状态,保证其请求的成功性,排除不可于用的代理,一定程度上减少了对于网络资源的占用,降低网络请求对目标服务器的伤害。
技术领域
本发明涉及计算机软件领域,具体涉及一种提升爬虫代理质量的方法、装置及计算机可读存储介质。
背景技术
在迅速发展的互联网时代,用户通过网络爬虫高效的采集公开的网络数据,但是大批量的网络爬虫对网络数据的不断采集,对网络资源占用特别大,给正常的网站服务器带来很大压力。因此,很多网站采用了反扒技术,不允许同一ip地址对网站进行高频率的请求,限制爬虫程序的访问速度。为了应对反扒技术,爬虫程序开始使用代理请求目标服务器来下载正常的网页。
现有技术中大都采用通用的代理池供给爬虫程序调用。网络爬虫是一种网络浏览机器人,每次爬虫程序请求代理池分发一个新的代理,爬虫接收分发的代理后直接向目标服务器请求网络资源,无法辨识代理的质量和可使用状态,造成大量爬虫的请求失败,失败后还是频繁的继续请求,造成网络和服务器资源的大部分浪费。
因此,如何保证代理的高使用状态和高质量,对代理池合理分级,提高爬虫网络资源获取的成功率,减少对目标服务器的伤害,是目前需要解决的问题。
发明内容
针对现有技术中的缺陷,本发明提供一种提升爬虫代理质量的方法,包括以下步骤:
为若干代理池设置不同优先级;
基于代理池优先级及其使用率来进行代理池的调用。
可选地,所述为若干代理池设置不同优先级具体包括:
设置N个不同优先级的代理池。
可选地,在所述设置N个不同优先级的代理池之后,还包括:
设置与所述代理池一一对应的时间区间。
可选地,所述方法还包括:
获取网络代理,通过当前网络代理请求网络资源,根据返回状态判断网络资源是否请求成功。
可选地,若请求成功,则获取当前网络代理从发出网络资源请求到成功获取网络资源的占用时间,将当前网络代理占用时间与不同代理池的时间区间比较,当落入其中一时间区间范围内时,将当前代理放入对应时间区间的代理池中.
可选地,若请求不成功,则将当前网络代理放入废弃代理池;
可选地,设定代理池的代理使用阈值,按照代理池优先级及代理使用阈值进行代理池调用和切换。
可选地,优先级越高的代理池,设置的时间区间越小。
可选地,根据返回状态判断网络资源是否请求成功的具体方法为,检测返回状态码是否为200至206的任一值,如果是,则请求成功,如果不是,则请求失败。
可选地,按照代理池优先级及代理池的代理使用阈值进行代理池调用和切换的具体方法为,按优先级顺序调用代理池,检测代理池的代理使用率,当代理池的代理使用率达到代理使用阈值,顺位切换至下一优先级代理池进行代理池调用。
可选地,所述检测代理池的代理使用率的具体方法为,查看代理池剩余代理数量及总代理容量,确定代理使用率。
可选的,代理使用阈值设定为85%。
本发明提出一种提升爬虫代理质量的装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆八戒传媒有限公司,未经重庆八戒传媒有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910403144.4/2.html,转载请声明来源钻瓜专利网。