[发明专利]一种通用的互联网数据采集反反爬系统及方法有效

专利信息
申请号: 201711037128.5 申请日: 2017-10-30
公开(公告)号: CN109729044B 公开(公告)日: 2022-01-14
发明(设计)人: 白晓哲;尚林林 申请(专利权)人: 北京宸瑞科技股份有限公司
主分类号: H04L9/40 分类号: H04L9/40;H04L67/02
代理公司: 北京康思博达知识产权代理事务所(普通合伙) 11426 代理人: 刘冬梅;路永斌
地址: 100190 北京市海淀*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 通用 互联网 数据 采集 反反爬 系统 方法
【说明书】:

发明公开了一种通用的互联网数据采集反反爬方法及系统,该方法通过UA验证单元(01)向服务器提供随机UA头、通过IP验证单元(02)向服务器提供随机代理IP、通过间隔验证单元(03)有根据的随机化请求间隔、通过授权状态验证单元(04)模拟登录、以及通过验证码识别单元(05)进行验证码识别或通过上述组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,上述方式可绕过对多种反爬验证手段组合的拦截,实现对网站信息的有效获取。

技术领域

本发明主要涉及互联网数据采集技术,特别涉及常见的互联网数据反爬验证手段、通用的互联网数据采集反反爬系统及方法。

背景技术

以惊人的速度发展起来的网络,成就了万维网这个拥有着大量信息资源的宝藏,基于万维网信息资源而生的搜索引擎则实现了信息的有效提取和利用;但大数据时代的到来让我们对互联网信息产生了新的需求,于是通过编程实现自动批量采集的互联网数据采集即爬虫应运而生;而大量的爬虫极大增加了网页数据服务器的负载压力,基于服务器压力或数据性质等的考虑,网页数据拥有方对高频/批量获取其数据的爬虫采用反爬验证手段进行甄别并拦截,以阻止爬虫的爬取。

为了快速获取互联网信息或者更新的信息,爬虫的存在必不可少,为了应对反爬验证手段则产生了反反爬方法。随着反爬验证手段和反反爬方法的博弈越演越烈,越来越多的反反爬方法不能绕过反爬验证手段的拦截以获取互联网信息。这主要是因为反爬验证手段的多样性以及多种反爬验证手段的组合,使得拦截方式多样化、复杂化,而反反爬方法的通用性和灵活性得不到提升,网页数据获取方不能应对多样化的反反爬验证手段,互联网信息获取率低。

由于上述问题的存在,本发明人对现有的反爬验证手段等相关技术进行研究和分析,以期待研制出一种通用的互联网数据采集反反爬系统及方法,可以应对目前出现的多种形式的反爬验证手段,以及多组合反爬验证手段的拦截,高效获取互联网信息。

发明内容

为了克服上述问题,本发明人进行了锐意研究,设计出一种通用的互联网数据采集反反爬方法,该方法通过随机UA头、随机代理IP、随机请求间隔、模拟登录、验证码识别或其组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,从而完成本发明。

本发明的目的在于提供以下技术方案:

(1)一种通用的互联网数据采集反反爬方法,该方法包括以下步骤:

步骤1:通过UA头发送模块011接收服务器提出的UA验证请求,由UA头列表012中随机抽取UA头后,向服务器提供随机UA头;

步骤2:通过代理IP发送模块021接收服务器提出的IP验证请求,并向代理IP管理模块022发送调取代理IP的请求,代理IP管理模块022由IP代理池023中获取随机代理IP后传送至代理IP发送模块021,经附加代理IP于HTTP请求头中后,向服务器提供代理IP;

步骤3:通过请求间隔控制模块031控制请求源对服务器的请求间隔,使请求间隔随机化;

步骤4:通过登录请求查询模块041确定服务器是否发送登录请求,若服务器发送登录请求,通过自动登录模块044以拼接登录链接模式或者内置无界面浏览器模式实施网站登录;若服务器未发送登录请求,则登录请求查询模块041不进行信号传送及后续自动登录模块044的相关登录操作;

步骤5:通过验证码请求查询模块051确定服务器是否发送验证码请求,若发送验证码请求则验证码请求查询模块051将请求信号传送至验证码识别模块052,验证码识别模块052接收验证码请求查询模块051传送的请求信号,对验证码进行文字识别,进行验证码文字输入;若服务器未发送验证码请求,则验证码请求查询模块051不进行信号传送。

(2)一种通用的互联网数据采集反反爬系统,所述系统包括UA验证单元01、IP验证单元02和间隔验证单元03:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宸瑞科技股份有限公司,未经北京宸瑞科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711037128.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top