[发明专利]一种网页信息处理方法及装置在审

申请号：	202010298878.3	申请日：	2020-04-16
公开（公告）号：	CN111428115A	公开（公告）日：	2020-07-17
发明（设计）人：	何鲁敏;宋子杰	申请（专利权）人：	行吟信息科技（上海）有限公司
主分类号：	G06F16/951	分类号：	G06F16/951
代理公司：	北京集佳知识产权代理有限公司 11227	代理人：	李金
地址：	200025 上海市黄浦区***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种网页信息处理方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种网页信息处理方法及装置，主服务器将获取到的待抓取主题对应的网络资源数据存储到队列中，各个从服务器获取队列中的至少一个网络资源数据，向网络资源数据发送获取请求，接收与网络资源数据对应的网页信息，以实现至少通过各个从服务器抓取与网络资源数据对应的网页信息，从而提高网页信息的抓取效率。并且主服务器在待抓取主题对应的网络资源数据的存储时间达到过期时间后清空队列，以在队列中重新存储更新的待抓取主题对应的网络资源数据，实现对队列中的网络资源数据的定时更新，这样就可以基于变化后的网络资源数据抓取网页信息，实现增量获取网页信息，防止网页信息的重复获取。

技术领域

本发明属于分布式处理技术领域，尤其涉及一种网页信息处理方法及装置。

背景技术

网络爬虫是一种通过在互联网中埋入一个或者多个埋点，通过这些埋点获取URL(Uniform Resource Locator，统一资源定位符)地址，向URL地址发送获取请求以从URL地址中获取网页信息，并从网页信息中提取新的URL地址，向新的URL地址发送获取请求以从新的URL地址中获取网页信息，以此类推，通过不断地获取新的URL地址来获取更多的网页信息。

但是因为互联网中网页信息内容巨大，所以目前通过单一网络爬虫抓取某一网站或某一个类资源的网页信息会存在耗时较大的问题。

发明内容

有鉴于此，本发明的目的在于提供一种网页信息处理方法及装置，用于提高网页信息的抓取效率，且通过过期时间的设置可以定时更新网络资源数据，实现网页信息的增量获取。技术方案如下：

一方面提供一种网页信息处理方法，所述方法包括：

主服务器获取待抓取主题对应的网络资源数据；

所述主服务器将所述待抓取主题对应的网络资源数据存储到队列中；

各个从服务器获取所述队列中的至少一个网络资源数据，向所述网络资源数据发送获取请求，接收与所述网络资源数据对应的网页信息；

所述主服务器在所述待抓取主题对应的网络资源数据的存储时间达到过期时间后清空所述队列，以在所述队列中重新存储更新的待抓取主题对应的网络资源数据。

可选的，所述主服务器将待抓取主题对应的网络资源数据存储到队列中包括：

所述主服务器在获取到任一待抓取主题对应的网络资源数据后，判断所述队列中是否为空；

如果为空，所述主服务器将当前获取到的待抓取主题对应的网络资源数据存储到队列中；

如果不为空，所述主服务器将当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据进行比对；