[发明专利]内容爬取方法与装置以及分布式爬虫系统在审
申请号: | 201810549416.7 | 申请日: | 2018-05-31 |
公开(公告)号: | CN110633429A | 公开(公告)日: | 2019-12-31 |
发明(设计)人: | 支海邦;李猛;喻海林 | 申请(专利权)人: | 北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司 |
主分类号: | G06F16/954 | 分类号: | G06F16/954 |
代理公司: | 11438 北京律智知识产权代理有限公司 | 代理人: | 阚梓瑄;王卫忠 |
地址: | 100195 北京市海淀区杏石口路6*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络地址 地址队列 范围扩展 负载压力 预设内容 进程 网站 创建 写入 均衡 重复 | ||
本公开提供一种内容爬取方法与装置。内容爬取方法包括:根据多个待爬取网站的地址创建多个爬取进程;在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。本公开提供的内容爬取方法可以均衡负载压力,降低爬取范围扩展难度。
技术领域
本公开涉及互联网技术领域,具体而言,涉及一种以水平架构设计的内容爬取方法与装置以及分布式爬虫系统。
背景技术
随着电子商务的发展,诞生了越来越多的电商网站。网购用户在购买商品时,都希望以优惠的价格买到更好的商品,因此会在多个电商网站查询商品价格、优惠活动、用户评价等信息进行对比。因此,相关技术提供了电商爬虫系统,以及时汇总各个电商网站的商品信息,方便网购用户查询和对比。
相关技术中,往往针对各电商网站的不同页面设计编写单独的电商爬虫模块,以爬取对应的电商网站的信息。每个电商爬虫模块均包括爬取所有信息(电商品类信息、商品详细信息等)的子模块,工作时,一个电商爬虫模块会调用这些子模块在一台机器上开启多个工作线程,分别爬取不同信息。这种基于单机多线程的垂直模式设计使得每个爬虫模块只能爬取一个电商的信息,且每个爬虫模块均包含功能不同的子模块,程序可扩展性差,不便于系统动态扩展,且更新部署过程复杂。
此外,爬取并分析网页是一项十分消耗网络资源和CPU资源的任务,如果数据量庞大,光靠一台机器是远远不够的,需要在多台机器上部署爬虫程序。因为每个电商网站的爬取和分析难度不同,所要消耗的资源也不一样,在多机器部署时,很容易造成机器负载不均衡,无法充分利用机器资源爬取电商商品信息。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种内容爬取方法与内容爬取装置,用于至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或多个问题。
根据本公开实施例的第一方面,提供一种内容爬取方法,包括:根据多个待爬取网站的地址创建多个爬取进程;在所述爬取进程的爬取结果是网络地址时,根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一;根据所述地址队列创建与所述地址种类对应的爬取进程,重复上一步,直至所述爬取结果是预设内容。
在本公开的一个示例性实施例中,所述根据所述网络地址的地址种类将所述网络地址写入与所述地址种类对应的多个地址队列之一包括:
确定所述网络地址的地址种类,根据所述地址种类确定多个地址队列;
在所述多个地址队列中随机确定一个写入队列;
从所述写入队列开始,将一个爬取进程的多个网络地址爬取结果按序循环写入所述多个地址队列中。
在本公开的一个示例性实施例中,所述根据所述地址队列创建与所述地址种类对应的爬取进程包括:
确定所述地址队列的地址种类,根据所述地址种类确定爬取进程的内容;
为所述多个地址队列中的每一个地址队列创建多个爬取进程。
在本公开的一个示例性实施例中,还包括:将所述预设内容存储到数据库。
在本公开的一个示例性实施例中,所述地址队列存储在Redis数据库中。
根据本公开实施例的第二方面,提供一种内容爬取装置,包括:
初始进程创建模块,设置为根据多个待爬取网站的地址创建多个爬取进程;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司,未经北京京东尚科信息技术有限公司;北京京东世纪贸易有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810549416.7/2.html,转载请声明来源钻瓜专利网。