[发明专利]网络爬虫系统及其获取资源的方法和网络资源抓取装置无效
申请号: | 200910091624.8 | 申请日: | 2009-08-26 |
公开(公告)号: | CN101635718A | 公开(公告)日: | 2010-01-27 |
发明(设计)人: | 郑伟 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;H04L12/26;G06F17/30 |
代理公司: | 北京派特恩知识产权代理事务所(普通合伙) | 代理人: | 张颖玲;蒋雅洁 |
地址: | 518057广东省深圳市南山*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 爬虫 系统 及其 获取 资源 方法 网络资源 抓取 装置 | ||
1、一种网路爬虫系统,其特征在于,包括用户定制管理单元、控制单元和抓取单元,其中,
用户定制管理单元,用于提供用户操作界面,用户通过用户操作界面进行定制操作并保存定制结果;
控制单元,用于读取用户定制管理单元产生的定制结果,向抓取单元发送任务抓取通知,启动抓取任务;
抓取单元,用于对设置的任务实施抓取。
2、根据权利要求1所述的网路爬虫系统,其特征在于,该系统还包括监控单元,用于对抓取行为进行监控,显示抓取任务的运行状态,查询抓取任务的结果。
3、根据权利要求1或2所述的网路爬虫系统,其特征在于,所述用户定制管理单元的定制操作包括以下之一或任意组合:抓取深度、抓取任务的创建、抓取资源的分类、抓取资源的范围、抓取客户端设置、抓取到的资源如何保存、抓取报告设置。
4、根据权利要求1或2所述的网路爬虫系统,其特征在于,所述抓取单元具体用于,根据用户设置定制操作中的抓取深度,对网络资源进行抓取;
其中,所述抓取单元包括第一队列和第二队列,第一队列用于存放当前深度的统一资源定位符URL,第二队列用于存放下个深度的URL。
5、根据权利要求4所述的网路爬虫系统,其特征在于,所述第二个队列中存放的下个深度的URL是在对所述第一队列中的URL中的网络资源进行抓取过程中获取的。
6、根据权利要求4所述的网路爬虫系统,其特征在于,所述抓取单元还包括一列表,用于保存当前抓取过程中得到的所有URL及其抓取状态信息。
7、一种网络爬虫系统获取资源的方法,其特征在于,基于权1所述的系统,该方法包括:
用户通过用户操作界面进行定制操作并保存定制结果;
根据用户的定制结果,启动抓取任务并对设置的任务实施抓取。
8、根据权利要求7所述的方法,其特征在于,所述定制结果包括以下之一或任意组合:抓取深度、抓取任务的创建、抓取资源的分类、抓取资源的范围、抓取客户端设置、抓取到的资源如何保存、抓取报告设置。
9、根据权利要求7所述的方法,其特征在于,所述抓取单元包括第一队列和第二队列,所述第一队列存放当前深度的URL,所述第二队列存放下个深度的URL;所述定制操作中包括抓取深度;所述实施抓取包括:
抓取单元从第一队列中提取URL,根据所述的URL对网络资源进行抓取;
抓取单元根据设置的网络资源的抓取深度,判断是否需要根据第二队列中的URL对网络资源进行抓取,如果是,则继续抓取。
10、根据权利要求8所述的方法,其特征在于,所述抓取任务为一个或一个以上;当为一个以上抓取任务时,各个抓取任务并行执行,并且相对独立,每个抓取任务各自维护自身的抓取状态。
11、一种网络资源抓取装置,其特征在于,包括抓取单元,
所述抓取单元用于根据用户设置的抓取深度,对网络资源进行抓取;
其中,所述抓取单元包括第一队列和第二队列,第一队列用于存放当前深度的统一资源定位符URL,第二队列用于存放下个深度的URL。
12、根据权利要求11所述的网络资源抓取装置,其特征在于,所述第二个队列中存放的下个深度的URL是在对所述第一队列中的URL中的网络资源进行抓取过程中获取的。
13、根据权利要求11或12所述的网络资源抓取装置,其特征在于,所述抓取单元还包括一列表,用于保存当前抓取过程中得到的所有URL及其抓取状态信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200910091624.8/1.html,转载请声明来源钻瓜专利网。