[发明专利]一种支持多协议分布式高并发的互联网信息采集系统及方法在审
申请号: | 202010276673.5 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111488508A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 焦健;张沛轩;吕恒;张立华 | 申请(专利权)人: | 长春博立电子科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 许小东 |
地址: | 130000 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 协议 分布式 并发 互联网 信息 采集 系统 方法 | ||
1.一种支持多协议分布式高并发的互联网信息采集系统,其特征在于,包括:
客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;
主机服务器,其包括前端程序和后端程序;
其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;
主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;
缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;
其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;
从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;
其中,所述主机服务器能够调用所述从采集服务器中的数据;
数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存,并且所述数据存储服务器将数据结果返回给所述主机服务器。
2.根据权利要求1所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述抓取结果包括:
文本信息,其存储于所述持久化数据库中;
图片信息,其存储于所述文件系统中。
3.根据权利要求2所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述抓取包括:
非结构化抓取,根据字符出现的规律进行动态匹配完成非结构化数据的提取;
结构化抓取,通过针对各种规律的分析工具进行结构化数据的提取。
4.根据权利要求3所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述非结构化数据,其数据的内容整体没有固定的格式和语法规范;
结构化数据,其数据的内容有固定的语法规范,按照固定的结构进行组织管理。
5.根据权利要求4所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述页面样式渲染工具为Semantic,所述数据处理工具和输出工具为React,所述后端程序通过express架构为所述前端程序提供数据访问API。
6.根据权利要求5所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,所述反反爬安全机制包括:cookie池、代理池、验证码、时间间隔。
7.根据权利要求6所述的支持多协议分布式高并发的互联网信息采集系统,其特征在于,在所述客户端中通过控制台进入我的应用列表或者首页创建自定义应用,用户能够根据需求自由定制并保存自定义模板。
8.一种支持多协议分布式高并发的互联网信息采集方法,其特征在于,包括如下步骤:
步骤1、引擎打开一个网站,找到处理所述网站的爬虫;
步骤2、所述爬虫通过所述引擎向调度器请求初始URL;
步骤3、所述调度器将初始URL作为请求进行排序和入队处理;
步骤4、所述引擎向所述调度器请求待爬取URL,
步骤5、所述调度器返回待爬取URL给所述引擎;
步骤6、所述引擎将待爬取URL通过下载中间器发送给下载器;
步骤7、所述下载器向互联网发送请求,页面下载完毕后,所述下载器生成页面的响应;
步骤8、所述引擎从所述下载器中接收响应,并通过爬虫中间器发送给所述爬虫;
步骤9、所述爬虫处理响应,并提取项目经过引擎交给项目管道保存;
步骤10、重复步骤2-步骤8,直至所述调度器中没有待处理的请求,所述引擎关闭。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春博立电子科技有限公司,未经长春博立电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010276673.5/1.html,转载请声明来源钻瓜专利网。