[发明专利]一种通用的互联网数据采集反反爬系统及方法有效
申请号: | 201711037128.5 | 申请日: | 2017-10-30 |
公开(公告)号: | CN109729044B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 白晓哲;尚林林 | 申请(专利权)人: | 北京宸瑞科技股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L67/02 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 刘冬梅;路永斌 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 通用 互联网 数据 采集 反反爬 系统 方法 | ||
本发明公开了一种通用的互联网数据采集反反爬方法及系统,该方法通过UA验证单元(01)向服务器提供随机UA头、通过IP验证单元(02)向服务器提供随机代理IP、通过间隔验证单元(03)有根据的随机化请求间隔、通过授权状态验证单元(04)模拟登录、以及通过验证码识别单元(05)进行验证码识别或通过上述组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,上述方式可绕过对多种反爬验证手段组合的拦截,实现对网站信息的有效获取。
技术领域
本发明主要涉及互联网数据采集技术,特别涉及常见的互联网数据反爬验证手段、通用的互联网数据采集反反爬系统及方法。
背景技术
以惊人的速度发展起来的网络,成就了万维网这个拥有着大量信息资源的宝藏,基于万维网信息资源而生的搜索引擎则实现了信息的有效提取和利用;但大数据时代的到来让我们对互联网信息产生了新的需求,于是通过编程实现自动批量采集的互联网数据采集即爬虫应运而生;而大量的爬虫极大增加了网页数据服务器的负载压力,基于服务器压力或数据性质等的考虑,网页数据拥有方对高频/批量获取其数据的爬虫采用反爬验证手段进行甄别并拦截,以阻止爬虫的爬取。
为了快速获取互联网信息或者更新的信息,爬虫的存在必不可少,为了应对反爬验证手段则产生了反反爬方法。随着反爬验证手段和反反爬方法的博弈越演越烈,越来越多的反反爬方法不能绕过反爬验证手段的拦截以获取互联网信息。这主要是因为反爬验证手段的多样性以及多种反爬验证手段的组合,使得拦截方式多样化、复杂化,而反反爬方法的通用性和灵活性得不到提升,网页数据获取方不能应对多样化的反反爬验证手段,互联网信息获取率低。
由于上述问题的存在,本发明人对现有的反爬验证手段等相关技术进行研究和分析,以期待研制出一种通用的互联网数据采集反反爬系统及方法,可以应对目前出现的多种形式的反爬验证手段,以及多组合反爬验证手段的拦截,高效获取互联网信息。
发明内容
为了克服上述问题,本发明人进行了锐意研究,设计出一种通用的互联网数据采集反反爬方法,该方法通过随机UA头、随机代理IP、随机请求间隔、模拟登录、验证码识别或其组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,从而完成本发明。
本发明的目的在于提供以下技术方案:
(1)一种通用的互联网数据采集反反爬方法,该方法包括以下步骤:
步骤1:通过UA头发送模块011接收服务器提出的UA验证请求,由UA头列表012中随机抽取UA头后,向服务器提供随机UA头;
步骤2:通过代理IP发送模块021接收服务器提出的IP验证请求,并向代理IP管理模块022发送调取代理IP的请求,代理IP管理模块022由IP代理池023中获取随机代理IP后传送至代理IP发送模块021,经附加代理IP于HTTP请求头中后,向服务器提供代理IP;
步骤3:通过请求间隔控制模块031控制请求源对服务器的请求间隔,使请求间隔随机化;
步骤4:通过登录请求查询模块041确定服务器是否发送登录请求,若服务器发送登录请求,通过自动登录模块044以拼接登录链接模式或者内置无界面浏览器模式实施网站登录;若服务器未发送登录请求,则登录请求查询模块041不进行信号传送及后续自动登录模块044的相关登录操作;
步骤5:通过验证码请求查询模块051确定服务器是否发送验证码请求,若发送验证码请求则验证码请求查询模块051将请求信号传送至验证码识别模块052,验证码识别模块052接收验证码请求查询模块051传送的请求信号,对验证码进行文字识别,进行验证码文字输入;若服务器未发送验证码请求,则验证码请求查询模块051不进行信号传送。
(2)一种通用的互联网数据采集反反爬系统,所述系统包括UA验证单元01、IP验证单元02和间隔验证单元03:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宸瑞科技股份有限公司,未经北京宸瑞科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711037128.5/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置