[发明专利]一种通用的互联网数据采集反反爬系统及方法有效
申请号: | 201711037128.5 | 申请日: | 2017-10-30 |
公开(公告)号: | CN109729044B | 公开(公告)日: | 2022-01-14 |
发明(设计)人: | 白晓哲;尚林林 | 申请(专利权)人: | 北京宸瑞科技股份有限公司 |
主分类号: | H04L9/40 | 分类号: | H04L9/40;H04L67/02 |
代理公司: | 北京康思博达知识产权代理事务所(普通合伙) 11426 | 代理人: | 刘冬梅;路永斌 |
地址: | 100190 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种通用的互联网数据采集反反爬方法及系统,该方法通过UA验证单元(01)向服务器提供随机UA头、通过IP验证单元(02)向服务器提供随机代理IP、通过间隔验证单元(03)有根据的随机化请求间隔、通过授权状态验证单元(04)模拟登录、以及通过验证码识别单元(05)进行验证码识别或通过上述组合以分别应对互联网反爬验证中的请求UA验证、请求IP验证、请求间隔验证、授权状态验证、人工操作验证或其组合,上述方式可绕过对多种反爬验证手段组合的拦截,实现对网站信息的有效获取。 | ||
搜索关键词: | 一种 通用 互联网 数据 采集 反反爬 系统 方法 | ||
【主权项】:
1.一种通用的互联网数据采集反反爬方法,其特征在于,该方法包括以下步骤:步骤1:通过UA头发送模块(011)接收服务器提出的UA验证请求,由UA头列表(012)中随机抽取UA头,向服务器提供随机UA头;步骤2:通过代理IP发送模块(021)接收服务器提出的IP验证请求,并向代理IP管理模块(022)发送调取代理IP的请求,代理IP管理模块(022)由IP代理池(023)中获取随机代理IP后传送至代理IP发送模块(021),经附加代理IP于HTTP请求头中,向服务器提供代理IP;步骤3:通过请求间隔控制模块(031)控制请求源对服务器的请求间隔,使请求间隔随机化;步骤4:通过登录请求查询模块(041)确定服务器是否发送登录请求,若服务器发送登录请求,通过自动登录模块(044)以拼接登录链接模式或者内置无界面浏览器模式实施网站登录;若服务器未发送登录请求,则登录请求查询模块(041)不进行信号传送及后续自动登录模块(044)的相关登录操作;步骤5:通过验证码请求查询模块(051)确定服务器是否发送验证码请求,若发送验证码请求则验证码请求查询模块(051)将请求信号传送至验证码识别模块(052),验证码识别模块(052)接收验证码请求查询模块(051)传送的请求信号,对验证码进行文字识别,并进行验证码文字输入;若服务器未发送验证码请求,则验证码请求查询模块(051)不进行信号传送。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京宸瑞科技股份有限公司,未经北京宸瑞科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711037128.5/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置