[发明专利]一种分布式网络爬虫的信息爬取方法、服务器及存储介质在审

申请号：	201711478979.3	申请日：	2017-12-29
公开（公告）号：	CN109359231A	公开（公告）日：	2019-02-19
发明（设计）人：	徐松柏	申请（专利权）人：	广州TCL智能家居科技有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	深圳市君胜知识产权代理事务所(普通合伙) 44268	代理人：	王永文;刘文求
地址：	510000 广东省广州市萝岗区高新***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	爬虫分布式网络存储介质集群服务器多台设备方法使用目标信息网络资源客户端解析存储协作网络
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供了一种分布式网络爬虫的信息爬取方法、服务器及存储介质，通过利用获取到的多个IP同时进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；多个爬虫客户端同时从所述redis集群中获取URL，并从获取的URL中解析出目标信息。本发明所提供的信息爬取方法使用多台设备利用多个IP进行协作，同时对Internet上的所有URL进行爬取，实现更好，更快的，更准确的从海量的网络资源中获取到有用的信息。

技术领域

本发明涉及信息技术领域，尤其涉及的是一种分布式网络爬虫的信息爬取方法、服务器及存储介质。

背景技术

目前，据统计Internet 上网页数量超出 200 亿个，研究表明接近 30%的页面是重复的，并且还有大量动态页面的存在。客户端、服务器端脚本语言的应用使得指向相同Web （World Wide Web，全球广域网或万维网）信息的 URL（Uniform Resource Locator，统一资源定位）数量呈指数级增长，这时候我们如果要用一台服务器从Internet的网页里面想爬取我们需要的信息，则要花销大量的时间，用户不能及时获取所需信息，因此会导致诸多不便。

因此，现有技术有待于进一步的改进。

发明内容

鉴于上述现有技术中的不足之处，本发明的目的在于为用户提供一种分布式网络爬虫的信息爬取方法、服务器及存储介质，克服现有技术中不能快速查找从海量网络资源中爬取到所需信息的缺陷。

本发明提供了的第一实施例为一种分布式网络爬虫的信息爬取方法，其中，包括以下步骤：

利用获取到的多个IP进行网络URL爬取，并将爬取到的URL编码为key值存储到redis集群中；

多个爬虫客户端从所述redis集群中获取URL，并从获取的URL中解析出目标信息。

可选地，所述利用获取到的多个IP进行网络URL爬取的步骤之前还包括：

获取网络上的闲置IP，并将闲置IP存储在MongoDB中；

多个爬虫客户端从所述MongoDB中获取IP。

可选地，所述将爬取到的URL编码为key值存储到redis集群中的步骤还包括：

将爬取到的URL进行base64编码成key值，并以key值和URL一一对应保存至所述redis集群的第一主键中。

可选地，所述方法还包括：