[发明专利]网络爬虫调度方法、装置及设备有效
申请号: | 201810904421.5 | 申请日: | 2018-08-09 |
公开(公告)号: | CN110874430B | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 杨飞;张学颖;张丹 | 申请(专利权)人: | 北大方正集团有限公司;北京北大方正电子有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/958 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 张子青;刘芳 |
地址: | 100871 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 调度 方法 装置 设备 | ||
1.一种网络爬虫调度方法,其特征在于,包括:
获取站点的刷新频率,并将所述刷新频率发送至下载模块,以使所述下载模块根据所述刷新频率对所述站点的列表页进行刷新;
根据刷新结果确定所述站点的实际刷新比例,所述实际刷新比例是使用所述列表页中包括的新的下载链接与全部的下载链接的比值来确定,所述新的下载链接是指所述列表页中未下载过网页数据的链接;
根据所述实际刷新比例确定所述站点是否存在异常情况,若是,则将所述站点标记为异常站点,并且向所述下载模块发送停止刷新指令,以使所述下载模块不再对所述异常站点的列表页进行刷新;
比较所述实际刷新比例与标准比例的大小;
若所述实际刷新比例大于所述标准比例,则根据第一预设规则增加所述站点的刷新频率;
若所述实际刷新比例小于所述标准比例,则根据第二预设规则减小所述站点的刷新频率;
根据调整后的所述刷新频率执行获取站点的刷新频率的步骤。
2.根据权利要求1所述的方法,其特征在于,所述根据所述实际刷新比例确定所述站点是否存在异常情况,包括:
若判断所述实际刷新比例大于标准比例,则连续检测所述站点预设次数的实际刷新比例是否均大于等于预设阈值,若是,则将所述站点标记为所述异常站点。
3.根据权利要求1-2任一项所述的方法,其特征在于,还包括:
获取所述下载模块下载所述站点的网页数据时的连接时间、处理时间;
根据所述连接时间、所述处理时间确定下载所述站点的网页数据的平均连接时间、平均处理时间;
根据所述平均连接时间、所述平均处理时间向多个所述下载模块分配下载任务。
4.根据权利要求3所述的方法,其特征在于,还包括:
实时获取所述下载模块中的下载任务信息,确定每个所述下载任务对应的所述站点信息;
根据所述站点信息获取下载所述站点的网页数据的所述平均处理时间;
根据所述下载任务信息、每个所述下载任务对应的所述平均处理时间,确定向所述下载模块发送下载任务的数量。
5.根据权利要求1-2任一项所述的方法,其特征在于,还包括:
获取所述下载模块下载所述站点的网页数据的下载任务记录,并确定所述下载任务记录中包括的失败任务信息;
确定所述站点的失败任务占下载任务的比例;
根据所述比例确定所述站点的重试下载次数。
6.一种网络爬虫调度装置,其特征在于,包括:
获取模块,用于获取站点的刷新频率,并将所述刷新频率发送至下载模块,以使所述下载模块根据所述刷新频率对所述站点的列表页进行刷新;
第一确定模块,用于根据刷新结果确定所述站点的实际刷新比例,所述实际刷新比例是使用所述列表页中包括的新的下载链接与全部的下载链接的比值来确定,所述新的下载链接是指所述列表页中未下载过网页数据的链接;
第二确定模块,用于根据所述实际刷新比例确定所述站点是否存在异常情况,若是,则将所述站点标记为异常站点,并且向所述下载模块发送停止刷新指令,以使所述下载模块不再对所述异常站点的列表页进行刷新;
比较模块,用于比较所述实际刷新比例与标准比例的大小;
若所述实际刷新比例大于所述标准比例,则调整模块根据第一预设规则增加所述站点的刷新频率;
若所述实际刷新比例小于所述标准比例,则所述调整模块根据第二预设规则减小所述站点的刷新频率;
所述获取模块还用于根据所述调整模块调整后的所述刷新频率执行获取站点的刷新频率的步骤。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块,包括:检测单元、标记单元;
若所述比较模块判断所述实际刷新比例大于标准比例,则所述检测单元用于连续检测所述站点预设次数的实际刷新比例是否均大于等于预设阈值,若是,则所述标记单元用于将所述站点标记为所述异常站点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北大方正集团有限公司;北京北大方正电子有限公司,未经北大方正集团有限公司;北京北大方正电子有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810904421.5/1.html,转载请声明来源钻瓜专利网。