[发明专利]一种网络数据爬虫使用浏览器多分身多代理的方法在审

专利信息
申请号: 202011522076.2 申请日: 2020-12-21
公开(公告)号: CN112528120A 公开(公告)日: 2021-03-19
发明(设计)人: 任佳明;代宏伟;李宏伟;付君辉 申请(专利权)人: 北京中安智达科技有限公司
主分类号: G06F16/951 分类号: G06F16/951;G06F16/955;G06F16/957
代理公司: 北京高文律师事务所 11359 代理人: 徐江华;李宝玉
地址: 100085 北京市海*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 数据 爬虫 使用 浏览器 分身 代理 方法
【权利要求书】:

1.一种网络数据爬虫使用浏览器多分身多代理的方法,包括以下模块:

(1)统一管理平台模块:提供对所有爬虫进行管理的统一平台,实现爬虫的状态监控、服务停止、管理功能;

(2)任务模块:根据统一管理平台模块作为在单个机器上部署的客户端,控制本台机器上的爬虫并提供HTTP服务,以及通过HTTP将用户操作与数据库交互,还有调试功能;

(3)浏览器二次开发模块:在单台机器上配置启动多个浏览器分身,通过用户的配置信息,初始化对应的浏览器分身,并建立与任务模块的通信,接收任务模块的指令,启动对应的插件模块,每台机器上存在一个进程;

(4)插件模块:针对不同待爬取网站的类型开发的不同类型的插件,获取数据设置浏览器分身的代理IP,自动化登录页面,自动分页爬取页面并保存数据,每台机器上存在一个进程;

(5)保护程序模块:守护本方法的主进程。

2.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述统一管理平台模块中,状态监控能够显示各个机器上部署的爬虫状态信息,包括每台机器上的每个浏览器分身的状态信息、机器CPU、内存、IO、磁盘状态信息。

3.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述统一管理平台模块中,管理功能能够对各个机器上的爬虫提供上线、下线、重启功能,对爬虫的每个浏览器分身提供启动、停止、重启功能。

4.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述任务模块中,控制本台机器上的爬虫并提供HTTP服务,包括以下内容:

B11打开任务:设置浏览器分身个数,并启动浏览器分身,同时根据浏览器个数创建对应的目录用于存放浏览器信息与爬取结果信息,启动与浏览器二次开发模块通信的客户端,用于发送指令信息;

B12关闭任务:关闭打开的浏览器分身;

B13执行命令:选择并执行插件目录下对应的插件,之后开始自动爬取页面;

B14停止命令:停止打开的浏览器分身的线程。

5.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述任务模块中,通过HTTP将用户操作与数据库交互包括以下内容:

B21启动监听80端口的HTTP服务;

B22包括添加代理IP到数据库;

B23添加登录用户名密码到数据库;

B24添加待爬取网站的URL到数据库,获取爬取结果。

6.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述任务模块中,所述调试功能包括以下内容:当浏览器分身出现问题时,提供手动调整浏览器内容的方式,手动调整包含配置默认User-Agent,配置默认的代理IP,配置默认的浏览器语言,配置用于调试浏览器的命令:刷新、向前、向后、复制网址。

7.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:在浏览器二次开发模块中,初始化对应的浏览器分身是以下步骤:加载读取各自浏览器分身对应目录的配置文件,并初始化浏览器分身内核,通过各自浏览器内核加载配置的方式达到分身的效果,使各个分身互不干扰,起到会话隔离的作用。

8.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:在浏览器二次开发模块中,建立与任务模块的通信包括以下步骤:创建与任务模块通信的服务端,根据不同指令执行对应操作,操作包括:打开网址、保存数据、停止进程、启动插件、查看状态、刷新、保存Cookie、获取Cookie。

9.根据权利要求1所述的网络数据爬虫使用浏览器多分身多代理的方法,其特征在于:所述保护程序模块中,定时检测主程序进程,如果主程序进程不在,清除子程序进程,然后重新启动任务模块,每台机器上存在一个进程。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京中安智达科技有限公司,未经北京中安智达科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011522076.2/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top