[发明专利]基于IP的高效爬虫方法在审
申请号: | 201910434695.7 | 申请日: | 2019-05-23 |
公开(公告)号: | CN110149419A | 公开(公告)日: | 2019-08-20 |
发明(设计)人: | 张臣 | 申请(专利权)人: | 上海睿翎法律咨询服务有限公司 |
主分类号: | H04L29/12 | 分类号: | H04L29/12;H04L29/08;G06F16/951 |
代理公司: | 上海智信专利代理有限公司 31002 | 代理人: | 王洁;郑暄 |
地址: | 201799 上海市青浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于IP的高效爬虫方法,包括以下步骤:(1)获取代理IP,将IP放入可用性检测队列,请求在本地搭建的服务器,将高质量代理的IP放入普通IP池;(2)根据实际采集任务,制定指定网站使用的IP池;(3)对各个代理池的IP请求服务器,删掉失效的IP。采用了本发明的基于IP的高效爬虫方法,根据采集不同的网站,添加不同的指定网站使用的IP池,不同的网站用不同的IP池,能最大限度的利用IP,本发明节约了因无法获取数据而频繁切换IP的时间,大大提高了爬虫效率,通过对指定网站使用的IP池监测就能很好解决该问题,提高利用率和效率。 | ||
搜索关键词: | 网站 爬虫 放入 服务器 采集 可用性检测 获取数据 频繁切换 代理IP 代理 队列 监测 节约 制定 | ||
【主权项】:
1.一种基于IP的高效爬虫方法,其特征在于,所述的系统包括:(1)获取代理IP,将IP放入可用性检测队列,请求在本地搭建的服务器,将高质量代理的IP放入普通IP池;(2)根据实际采集任务,制定指定网站使用的IP池;(3)对各个代理池的IP请求服务器,删掉失效的IP。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海睿翎法律咨询服务有限公司,未经上海睿翎法律咨询服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910434695.7/,转载请声明来源钻瓜专利网。