[发明专利]爬虫任务完成的判断方法和装置有效
申请号: | 201510624770.8 | 申请日: | 2015-09-25 |
公开(公告)号: | CN106557334B | 公开(公告)日: | 2020-02-07 |
发明(设计)人: | 崔志伸 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/951 | 分类号: | G06F16/951;G06F16/958;G06F16/955 |
代理公司: | 11240 北京康信知识产权代理有限责任公司 | 代理人: | 韩建伟;张永明 |
地址: | 100083 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本申请公开了一种爬虫任务完成的判断方法和装置。其中,该方法包括:在当前爬取子任务结束时,累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数;累计执行所有爬取子任务时爬取失败的链接数量、爬取成功的链接数量和无效链接的数量;当爬取失败的链接数量、爬取成功的链接数量和无效链接的数量的总和与链接总数相同时,确定爬虫任务结束,其中,链接总数为累计链接数加1得到。本申请解决了无法准确确定爬取任务的结束时间的技术问题。 | ||
搜索关键词: | 爬虫 任务 完成 判断 方法 装置 | ||
【主权项】:
1.一种爬虫任务完成的判断方法,其特征在于,爬虫任务包括至少一个爬取子任务,所述方法包括:/n在当前爬取子任务结束时,累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数;/n累计执行所有爬取子任务时爬取失败的链接数量、爬取成功的链接数量和无效链接的数量;/n当所述爬取失败的链接数量、所述爬取成功的链接数量和所述无效链接的数量的总和与链接总数相同时,确定所述爬虫任务已完成,其中,所述链接总数为所述累计链接数加1得到;/n爬虫任务携带有身份标识,在累计执行过的所有爬取子任务得到的链接的数量,得到累计链接数包括:为执行爬取子任务得到的链接添加所述身份标识;对添加有所述身份标识的链接进行计数,得到所述累计链接数;/n执行爬取子任务得到的链接添加有所述爬虫任务的身份标识,累计执行所有爬取子任务时无效链接的数量包括:在执行爬取子任务时按照预设过滤规则对添加有所述爬虫任务的身份标识的链接进行过滤,得到有效链接和无效链接;对添加有所述身份标识的无效链接进行计数,得到所述无效链接的数量。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510624770.8/,转载请声明来源钻瓜专利网。