[发明专利]一种网页信息处理方法及装置在审
申请号: | 202010298878.3 | 申请日: | 2020-04-16 |
公开(公告)号: | CN111428115A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 何鲁敏;宋子杰 | 申请(专利权)人: | 行吟信息科技(上海)有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 李金 |
地址: | 200025 上海市黄浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 网页 信息处理 方法 装置 | ||
1.一种网页信息处理方法,其特征在于,所述方法包括:
主服务器获取待抓取主题对应的网络资源数据;
所述主服务器将所述待抓取主题对应的网络资源数据存储到队列中;
各个从服务器获取所述队列中的至少一个网络资源数据,向所述网络资源数据发送获取请求,接收与所述网络资源数据对应的网页信息;
所述主服务器在所述待抓取主题对应的网络资源数据的存储时间达到过期时间后清空所述队列,以在所述队列中重新存储更新的待抓取主题对应的网络资源数据。
2.根据权利要求1所述的方法,其特征在于,所述主服务器将待抓取主题对应的网络资源数据存储到队列中包括:
所述主服务器在获取到任一待抓取主题对应的网络资源数据后,判断所述队列中是否为空;
如果为空,所述主服务器将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
如果不为空,所述主服务器将当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据进行比对;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据不同,所述主服务器将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据相同,所述主服务器忽略当前获取到的待抓取主题对应的网络资源数据。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:所述主服务器按照如下方式中的至少一种方式向所述从服务器发送所述队列中存储的网络资源数据:
方式一、所述主服务器随机选取一个所述从服务器,向所选取的从服务器发送所述网络资源数据;
方式二、所述主服务器以轮询方式向各个所述从服务器发送所述网络资源数据;
方式三、所述主服务器以负载最小方式选取一个所述从服务器,向所选取的从服务器发送所述网络资源数据。
4.根据权利要求1所述的方法,其特征在于,所述主服务器获取待抓取主题对应的网络资源数据包括:
所述主服务器获取用户输入的待抓取主题对应的第一条网络资源数据;
所述主服务器从所述队列中获取任一条网络资源数据对应的网页信息,并从所述任一条网络资源数据对应的网页信息中提取所述待抓取主题对应的另一条网络资源数据。
5.一种网页信息处理系统,其特征在于,所述系统包括:主服务器和至少一个从服务器;其中,所述主服务器包括:获取单元、存储单元和清空单元;
所述获取单元,用于获取待抓取主题对应的网络资源数据;
所述存储单元,用于将所述待抓取主题对应的网络资源数据存储到队列中;
各个从服务器,用于获取所述队列中的至少一个网络资源数据,向所述网络资源数据发送获取请求,接收与所述网络资源数据对应的网页信息;
所述清空单元,用于在所述待抓取主题对应的网络资源数据的存储时间达到过期时间后清空所述队列,以使所述存储单元在所述队列中重新存储更新的待抓取主题对应的网络资源数据。
6.根据权利要求5所述的系统,其特征在于,所述主服务器的存储单元具体用于:
在所述获取单元获取到任一待抓取主题对应的网络资源数据后,判断所述队列中是否为空;
如果为空,将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
如果不为空,将当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据进行比对;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据不同,将当前获取到的待抓取主题对应的网络资源数据存储到队列中;
若当前获取到的待抓取主题对应的网络资源数据与所述队列中已存储的网络资源数据相同,忽略当前获取到的待抓取主题对应的网络资源数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于行吟信息科技(上海)有限公司,未经行吟信息科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010298878.3/1.html,转载请声明来源钻瓜专利网。