[发明专利]基于IP的高效爬虫方法在审
申请号: | 201910434695.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110149419A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 张臣 | 申请(专利权)人: | 上海睿翎法律咨询服务有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12;H04L29/08;G06F16/951 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 201799 上海市青浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网站 爬虫 放入 服务器 采集 可用性检测 获取数据 频繁切换 代理IP 代理 队列 监测 节约 制定 | ||
本发明涉及一种基于IP的高效爬虫方法,包括以下步骤:(1)获取代理IP,将IP放入可用性检测队列,请求在本地搭建的服务器,将高质量代理的IP放入普通IP池;(2)根据实际采集任务,制定指定网站使用的IP池;(3)对各个代理池的IP请求服务器,删掉失效的IP。采用了本发明的基于IP的高效爬虫方法,根据采集不同的网站,添加不同的指定网站使用的IP池,不同的网站用不同的IP池,能最大限度的利用IP,本发明节约了因无法获取数据而频繁切换IP的时间,大大提高了爬虫效率,通过对指定网站使用的IP池监测就能很好解决该问题,提高利用率和效率。
技术领域
本发明涉及数据采集领域,尤其涉及IP使用领域,具体是指一种基于IP的高效爬虫方法。
背景技术
现有技术的常规方法是取任意IP去请求目标网站,直到因为使用频繁而无法获取数据再切换另一个IP,这样,会导致IP使用率低下。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种效率高、利用率高、操作简便的基于IP的高效爬虫方法。
为了实现上述目的,本发明的基于IP的高效爬虫方法如下:
该基于IP的高效爬虫方法,其主要特点是,所述的系统包括:
(1)获取代理IP,将IP放入可用性检测队列,请求在本地搭建的服务器,将高质量代理的IP放入普通IP池;
(2)根据实际采集任务,制定指定网站使用的IP池;
(3)对各个代理池的IP请求服务器,删掉失效的IP。
较佳地,所述的步骤(1)具体包括以下步骤:
(1.1)获取代理IP,将IP放入可用性检测队列;
(1.2)请求在本地搭建的服务器,判断2秒内是否能得到服务器响应,如果是,则此IP为高质量代理,添加目标网站质量检测队列,放入普通IP池,继续步骤(2);否则,所述的IP为非高质量代理,重新放入可用性检测队列;
(1.3)判断所述的IP放入可用性检测队列的次数是否大于3,如果是,则舍弃所述的IP;否则,继续步骤(1.2)。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)用所述的IP请求目标网站;
(2.2)判断是否能得到响应,如果是,则所述的IP能通过目标网站验证,将所述的IP重新放入指定网站使用的IP池;否则,将所述的IP放回普通IP池。
较佳地,所述的步骤(3)具体包括以下步骤:
(3.1)取出各个代理池的IP,请求步骤(1)的数据服务器;
(3.2)判断2秒内是否能得到服务器响应,如果是,则放回对应的IP池;否则,所述的IP已经失效,从对应IP池删掉所述的IP;
(3.3)继续步骤(3.1),直至IP池内所有IP均未失效。
较佳地,所述的步骤(3.1)中的代理池包括普通IP池和指定网站使用的IP池。
较佳地,所述的方法还包括使用IP的具体步骤,具体包括以下步骤:
(1-1)利用随机函数从IP池内随机选取代理进行使用。
较佳地,所述的方法还包括使用IP的具体步骤,具体包括以下步骤:
(2-1)判断普通IP池内的IP是否已被多次使用,如果是,则从步骤(2)中的指定网站使用的IP池内选取IP;否则,继续使用普通IP池。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海睿翎法律咨询服务有限公司,未经上海睿翎法律咨询服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910434695.7/2.html,转载请声明来源钻瓜专利网。