[发明专利]一种支持多协议分布式高并发的互联网信息采集系统及方法在审
申请号: | 202010276673.5 | 申请日: | 2020-04-10 |
公开(公告)号: | CN111488508A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 焦健;张沛轩;吕恒;张立华 | 申请(专利权)人: | 长春博立电子科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/9535;G06F16/955 |
代理公司: | 北京远大卓悦知识产权代理事务所(普通合伙) 11369 | 代理人: | 许小东 |
地址: | 130000 吉林*** | 国省代码: | 吉林;22 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 支持 协议 分布式 并发 互联网 信息 采集 系统 方法 | ||
本发明公开了一种支持多协议分布式高并发的互联网信息采集系统,包括:包括:客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;主机服务器,其包括前端程序和后端程序;主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;数据存储服务器,其包括持久化数据库和文件系统,用于对所述爬取结果进行保存。本发明还提供一种支持多协议分布式高并发的互联网信息采集方法,能够控制采集调度,快速准确的获取信息。
技术领域
本发明属于互联网信息采集技术领域,特别涉及一种支持多协议分布式高并发的互联网信息采集系统及方法。
背景技术
随着互联网行业的高速发展,网络开始走进千家万户,每时每刻都有着海量数据产生,但是我们浏览的网页通常不会仅仅只提供我们需要的数据,其中还夹杂着更多的干扰信息,会干扰我们对数据的获取与理解,因此如何安全快速地根据需求获取数据信息成为了新时代互联网行业的最大问题。
现有技术中,用户获取数据一般通过网页爬取技术,即根据给定的统一资源定位符(URL)自动加载网页,获取相关数据的一种技术,一般通过给定的URL列表或者范围进行爬取信息操作,通过爬取技术加载网页,并通过广告过滤去除一定的冗余数据,对得到的数据进行保存,然后在获取到海量数据后通过相关的分析算法进行分析,根据分析结果将数据进行分类,并根据相应的数据结构将数据存入数据库,最后客户端通过提取数据库中的信息,按照预存模板进行展示,或对数据流执行导出操作。
但是现有技术存在着很多的缺点,第一,服务器压力大,随着爬取的量加大,单个服务器的压力逐渐增大,会极大的影响效率;第二,安全性较差,容易在爬取过程中受到攻击或反向爬取,从而丢失数据;第三,没有自定义模板功能,现有技术大多有对知名网站的爬取预存模板,但是面对不太常用的网址没有自定义模板功能。
因此,如何在快速获取海量准确信息的同时,保障服务器的安全,正是亟需考虑和研究的。
发明内容
本发明提供了一种支持多协议分布式高并发的互联网信息采集系统,解决现有技术存在的问题,通过分布式高并发主采集服务器和从采集服务器,减小了高并发模式下单一服务器的运行压力,更好地解决高并发模式下的效率低下问题。
本发明还提供一种支持多协议分布式高并发的互联网信息采集方法,通过对URL数据的处理,能够实现对指定网站执行信息抓取,并对重复冗余信息进行过滤,对经过过滤的信息进行分析处理,并将信息规整入相关的数据库中,控制采集调度,快速准确的获取信息。
本发明提供的技术方案为:
一种支持多协议分布式高并发的互联网信息采集系统,包括:
客户端,其为B/S风格,所述客户端中预存多个网站信息采集模板;
主机服务器,其包括前端程序和后端程序;
其中,所述前端程序包括:页面样式渲染工具、数据处理工具和输出工具,并且所述前端程序通过互联网与所述客户端进行交互;所述后端程序为所述前端程序提供数据访问API;
主采集服务器,其接收所述主机服务器的指令对初始URL数据进行提取、管理和分配,并且所述主采集服务器具有反反爬安全机制;
缓存服务器,其具有缓存数据库Redis,所述缓存服务器接收所述初始URL数据;
其中,所述缓存数据库Redis对所述初始URL数据进行排序与去重形成待爬取URL数据;
从采集服务器,其对所述待爬取URL数据进行抓取、解析和提取形成抓取结果;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长春博立电子科技有限公司,未经长春博立电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010276673.5/2.html,转载请声明来源钻瓜专利网。