[发明专利]执行爬取任务的方法和装置在审
申请号: | 201410779535.3 | 申请日: | 2014-12-15 |
公开(公告)号: | CN104484405A | 公开(公告)日: | 2015-04-01 |
发明(设计)人: | 何恺铎 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 吴贵明;张永明 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 执行 任务 方法 装置 | ||
1.一种执行爬取任务的方法,其特征在于,包括:
第一终端将接收到的爬取请求发送至云服务器的云端分布式队列;
第二终端从所述云端分布式队列中读取所述爬取请求,其中,所述第二终端为云终端;
所述第二终端按照所述爬取请求进行网络资源的爬取,并将爬取结果数据保存至数据库;
所述第一终端从所述数据库读取所述爬取结果数据。
2.根据权利要求1所述的方法,其特征在于,第一终端将接收到的爬取请求发送至云服务器的云端分布式队列包括:
为所述爬取请求设置第一请求标签;
将所述第一请求标签和所述爬取请求发送至所述云端分布式队列;以及
保存所述爬取请求和所述第一请求标签至所述第一终端的数据表。
3.根据权利要求2所述的方法,其特征在于,在所述第二终端按照所述爬取请求进行网络资源的爬取,并将爬取结果数据保存至数据库的同时或之后,所述方法还包括:
将所述爬取请求的所述第一请求标签和所述爬取结果数据的存储地址保存至所述云服务器的爬取完成队列。
4.根据权利要求3所述的方法,其特征在于,所述第一终端从所述数据库读取所述爬取结果数据包括:
从所述爬取完成队列中获取所述第一请求标签及其对应的所述存储地址;
从所述存储地址对应所述数据库的存储位置中读取所述爬取结果数据。
5.根据权利要求2所述的方法,其特征在于,在所述第一终端从所述数据库读取所述爬取结果数据之后,所述方法还包括:
从所述数据表中读取所述第一请求标签的所述爬取请求;
输出所述第一请求标签的所述爬取请求和所述爬取结果数据。
6.一种执行爬取任务的装置,其特征在于,包括:
发送模块,用于第一终端将接收到的爬取请求发送至云服务器的云端分布式队列;
第一读取模块,用于第二终端从所述云端分布式队列中读取所述爬取请求,其中,所述第二终端为云终端;
爬取模块,用于所述第二终端按照所述爬取请求进行网络资源的爬取,并将爬取结果数据保存至数据库;
第二读取模块,用于所述第一终端从所述数据库读取所述爬取结果数据。
7.根据权利要求6所述的装置,其特征在于,所述发送模块包括:
设置模块,用于为所述爬取请求设置第一请求标签;
发送子模块,用于将所述第一请求标签和所述爬取请求发送至所述云端分布式队列;以及
第一保存模块,用于保存所述爬取请求和所述第一请求标签至所述第一终端的数据表。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第二保存模块,用于在所述第二终端按照所述爬取请求进行网络资源的爬取,并将爬取结果数据保存至数据库的同时或之后,将所述爬取请求的所述第一请求标签和所述爬取结果数据的存储地址保存至所述云服务器的爬取完成队列。
9.根据权利要求8所述的装置,其特征在于,所述第二读取模块包括:
获取模块,用于从所述爬取完成队列中获取所述第一请求标签及其对应的所述存储地址;
第二读取子模块,用于从所述存储地址对应所述数据库的存储位置中读取所述爬取结果数据。
10.根据权利要求7所述的装置,其特征在于,所述装置还包括:
第三读取模块,用于在所述第一终端从所述数据库读取所述爬取结果数据之后,从所述数据表中读取所述第一请求标签的所述爬取请求;
输出模块,用于输出所述第一请求标签的所述爬取请求和所述爬取结果数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410779535.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:植物信息的搜索处理方法和系统
- 下一篇:网页页面的跳转处理方法和装置