[发明专利]一种往爬虫平台注任务的方法及装置有效
申请号: | 201710637357.4 | 申请日: | 2017-07-31 |
公开(公告)号: | CN110020066B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 李鹤 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06F16/951;G06F9/48 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 侯珊;王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 爬虫 平台 任务 方法 装置 | ||
本发明公开了一种往爬虫平台注任务的方法及装置,首先获取满足执行条件的任务数据;然后将所述满足执行条件的任务数据全部加入到待处理队列;最后调用爬虫平台的应用程序编程接口API将所述待处理队列中的任务数据注入到爬虫平台,以使爬虫平台执行所述待处理队列中的任务数据的爬取。上述方法及装置,会把所有满足执行条件的任务全部加入到待处理队列,为任务的及时注入奠定了基础,提升了任务注入的效率,进而保证了爬虫平台执行任务爬取的工作效率。
技术领域
本发明涉及信息技术领域,尤其涉及一种往爬虫平台注任务的方法及装置。
背景技术
随着信息技术的飞速发展,网络爬虫技术越来越受到重视。网络爬虫是一种可以自动下载网站数据的程序,它通过下载指定网页中的所有网址链接来获取开发者需要的信息。
目前,往爬虫平台注任务的方法具体如下:在数据库中有一张种子表用来存放所有需要注入爬虫平台的任务,该表中保存有每个任务的最后一次注入时间和注任务的时间间隔。有一个专门用来注任务的程序,每隔2分钟遍历一遍种子表,根据当前时间、每个任务的最后一次注入时间和注任务的时间间隔来判断当前该任务是否应该注入爬虫系统,筛选出当前所有需要注入爬虫平台的任务,然后从当前所有需要注入爬虫平台的任务中按照任务的ID选择2000个,调用注任务的API(Application Programming Interface,应用程序编程接口)注入到爬虫平台中。
但是,现有的往爬虫平台注任务的方法,种子表中存放的任务量为十万级别,按照上述筛选方式筛选出来的当前所有需要注入爬虫平台的任务数如果超出2000个,则无法确定超出2000个之外的任务何时注入,而且可能导致爬虫平台想及时爬取的任务无法及时注入。而且,所有需要注入爬虫平台的任务都要预先存放至种子表中才会被注入,这对于一次性的任务来说,存放种子表中反而会降低任务注入效率。另外,种子表中保存的每个任务,都是只能按照一个固定的时间间隔来执行注入,灵活性差,影响了任务的注入效率。
综上所述,现有的往爬虫平台注任务的方法,任务注入效率低下,最终导致爬虫平台执行任务爬取的工作效率低下。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的往爬虫平台注任务的方法及装置。技术方案如下:
一种往爬虫平台注任务的方法,所述方法包括:
获取满足执行条件的任务数据;
将所述满足执行条件的任务数据全部加入到待处理队列;
调用爬虫平台的应用程序编程接口API将所述待处理队列中的任务数据注入到爬虫平台,以使爬虫平台执行所述待处理队列中的任务数据的爬取。
可选的,所述获取满足执行条件的任务数据包括:
获取调用爬虫平台的应用程序编程接口API后保存下来的任务数据;
遍历所述任务数据,从所述任务数据中筛选出满足执行条件的任务数据。
可选的,获取调用爬虫平台的API后保存下来的任务数据包括:
获取调用爬虫平台的API后保存下来的单个任务注入的任务数据和/或批量任务注入的任务数据,所述单个任务注入的任务数据包括该单个任务对应的统一资源定位符URL及任务定制信息,所述批量任务注入的任务数据包括该批量任务对应的存储有批量任务对应的URL集的文件的地址及任务定制信息,所述任务定制信息包括任务注入的定时信息。
可选的,遍历所述任务数据,从所述任务数据中筛选出满足执行条件的任务数据,包括:
遍历每一条所述任务数据,从中筛选出与当前时间点相匹配的任务注入的定时信息所对应的任务数据,作为满足执行条件的任务数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710637357.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种网站识别方法及装置
- 下一篇:一种网站模板引擎系统