[发明专利]一种网页信息处理方法及装置在审
申请号: | 202010298878.3 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111428115A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 何鲁敏;宋子杰 | 申请(专利权)人: | 行吟信息科技(上海)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李金 |
地址: | 200025 上海市黄浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息处理 方法 装置 | ||
本发明提供一种网页信息处理方法及装置,主服务器将获取到的待抓取主题对应的网络资源数据存储到队列中,各个从服务器获取队列中的至少一个网络资源数据,向网络资源数据发送获取请求,接收与网络资源数据对应的网页信息,以实现至少通过各个从服务器抓取与网络资源数据对应的网页信息,从而提高网页信息的抓取效率。并且主服务器在待抓取主题对应的网络资源数据的存储时间达到过期时间后清空队列,以在队列中重新存储更新的待抓取主题对应的网络资源数据,实现对队列中的网络资源数据的定时更新,这样就可以基于变化后的网络资源数据抓取网页信息,实现增量获取网页信息,防止网页信息的重复获取。
技术领域
本发明属于分布式处理技术领域,尤其涉及一种网页信息处理方法及装置。
背景技术
网络爬虫是一种通过在互联网中埋入一个或者多个埋点,通过这些埋点获取URL(Uniform Resource Locator,统一资源定位符)地址,向URL地址发送获取请求以从URL地址中获取网页信息,并从网页信息中提取新的URL地址,向新的URL地址发送获取请求以从新的URL地址中获取网页信息,以此类推,通过不断地获取新的URL地址来获取更多的网页信息。
但是因为互联网中网页信息内容巨大,所以目前通过单一网络爬虫抓取某一网站或某一个类资源的网页信息会存在耗时较大的问题。
发明内容
有鉴于此,本发明的目的在于提供一种网页信息处理方法及装置,用于提高网页信息的抓取效率,且通过过期时间的设置可以定时更新网络资源数据,实现网页信息的增量获取。技术方案如下:
一方面提供一种网页信息处理方法,所述方法包括:
主服务器获取待抓取主题对应的网络资源数据;
所述主服务器将所述待抓取主题对应的网络资源数据存储到队列中;
各个从服务器获取所述队列中的至少一个网络资源数据,向所述网络资源数据发送获取请求,接收与所述网络资源数据对应的网页信息;
所述主服务器在所述待抓取主题对应的网络资源数据的存储时间达到过期时间后清空所述队列,以在所述队列中重新存储更新的待抓取主题对应的网络资源数据。
可选的,所述主服务器将待抓取主题对应的网络资源数据存储到队列中包括:
所述主服务器在获取到任一待抓取主题对应的网络资源数据后,判断所述队列中是否为空;
如果为空,所述主服务器将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
如果不为空,所述主服务器将当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据进行比对;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据不同,所述主服务器将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据相同,所述主服务器忽略当前获取到的待抓取主题对应的网络资源数据。
可选的,所述方法还包括:所述主服务器按照如下方式中的至少一种方式向所述从服务器发送所述队列中存储的网络资源数据:
方式一、所述主服务器随机选取一个所述从服务器,向所选取的从服务器发送所述网络资源数据;
方式二、所述主服务器以轮询方式向各个所述从服务器发送所述网络资源数据;
方式三、所述主服务器以负载最小方式选取一个所述从服务器,向所选取的从服务器发送所述网络资源数据。
可选的,所述主服务器获取待抓取主题对应的网络资源数据包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于行吟信息科技(上海)有限公司,未经行吟信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010298878.3/2.html,转载请声明来源钻瓜专利网。